计算化学公社

 找回密码 Forget password
 注册 Register
Views: 1040|回复 Reply: 24
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] RetainPDF:PDF 保留排版翻译工具

[复制链接 Copy URL]

264

帖子

7

威望

2211

eV
积分
2615

Level 5 (御坂)

跳转到指定楼层 Go to specific reply
#
本帖最后由 wxyhgk 于 2026-4-6 13:50 编辑





项目简介
科学无国界,但文献有语言墙。这个项目面向科研论文、技术手册、教材与扫描型 PDF,目标不是只把文字翻出来,而是在翻译后尽量保留原始版面、公式位置、双栏结构和阅读体验。

RetainPDF 当前已经打通一条完整链路:上传 PDF 或 OCR 结果,经过 OCR、翻译、排版重建与产物登记,最终输出保留排版的中文 PDF,并支持 Markdown、JSON、Typst 与调试产物下载。

https://github.com/wxyhgk/retain-pdf

除了基础链路之外,这个项目还持续在两个方向做了大量优化:

  • 字体与排版侧:针对不同页面密度、框尺寸、双栏结构和覆盖区域,持续调整字体大小自适应、覆盖背景、行块回填与页面可读性,尽量避免“字太大塞不下”或“字太小看不清”
  • 翻译侧:针对长文块、公式占位符、代码/命令行参数、失败重试与降级策略做了专门处理,目标不是单纯把文本翻成中文,而是尽量让结果稳定、完整、可直接阅读,后续还会开放翻译的 Rag 系统,让翻译达到出版级级别





本项目已完成 Windows,mac,linux 的全平台的打包应用,还有 docker 可供使用。

可到 https://github.com/wxyhgk/retain-pdf/releases 下载对应平台的安装包





  • 如果你只是自己在 Windows 电脑上使用,优先选 GitHub Releases 里的桌面版
  • 如果你在 macOS 上只是自己测试使用,也可以直接下载 GitHub Releases 里的 mac 包
  • 如果你想给局域网、团队或多台设备一起用,优先选 Docker 部署
  • 如果你希望后续自己更新镜像、改配置、接自己的 API key,也优先选 Docker 部署
  • 如果你不想关心端口、容器、环境变量,优先选桌面版


效果展示

SCI 论文







扫描版/图片型 PDF







图书













日/德/俄 PDF
这部分尚不稳定
















评分 Rate

参与人数
Participants 11
eV +54 收起 理由
Reason
乐平 + 5 好物!
LinS + 4
leleyi + 5 GJ!
Diotima + 5
LittlePupil + 5 牛!
方方方 + 5 好物!
不想飞的猫头鹰 + 5 好物!
ChrisZheng + 5 赞!
wal + 5
yflchx + 5
Chao666 + 5 GJ!

查看全部评分 View all ratings

264

帖子

7

威望

2211

eV
积分
2615

Level 5 (御坂)

24#
 楼主 Author| 发表于 Post on 7 hour ago | 只看该作者 Only view this author
liudabenzhong 发表于 2026-4-22 16:57
请问楼主,reatinPDF的页数限制是可以提升的吗,我现在是限制在100页以内

由于云端 OCR 的限制,导致的,这个没办法的

1

帖子

0

威望

113

eV
积分
114

Level 2 能力者

23#
发表于 Post on 前天 16:57 | 只看该作者 Only view this author
请问楼主,reatinPDF的页数限制是可以提升的吗,我现在是限制在100页以内

280

帖子

0

威望

604

eV
积分
884

Level 4 (黑子)

22#
发表于 Post on 前天 16:53 | 只看该作者 Only view this author
wxyhgk 发表于 2026-4-21 08:36
后续会更新,支持自定义翻译什么的

老师,我给您github留言了,我deepseek有钱,但是翻译出现未知根因,没有任何报错信息可以参考。麻烦您帮忙看看,源文件pdf也上传了。谢谢!

264

帖子

7

威望

2211

eV
积分
2615

Level 5 (御坂)

21#
 楼主 Author| 发表于 Post on 3 day ago | 只看该作者 Only view this author
lmch 发表于 2026-4-20 16:28
大佬好,目前4.9.0b2版还存在如下问题和需求,可否完善:
1、比较旧的文件,还存在10楼的问题。
2、综述 ...

后续会更新,支持自定义翻译什么的

76

帖子

0

威望

1375

eV
积分
1451

Level 4 (黑子)

20#
发表于 Post on 4 day ago | 只看该作者 Only view this author
大佬好,目前4.9.0b2版还存在如下问题和需求,可否完善:
1、比较旧的文件,还存在10楼的问题。
2、综述类文章的long table没有翻译,可否增加此类功能。

280

帖子

0

威望

604

eV
积分
884

Level 4 (黑子)

19#
发表于 Post on 2026-4-13 16:34:08 | 只看该作者 Only view this author
强是真的强,就是只能填deepseek的API,需要充值,翻译11页大概2毛钱消耗token。哈哈

264

帖子

7

威望

2211

eV
积分
2615

Level 5 (御坂)

18#
 楼主 Author| 发表于 Post on 2026-4-9 01:20:40 | 只看该作者 Only view this author

v4.0.5-beta 版本已解决该问题

评分 Rate

参与人数
Participants 1
eV +3 收起 理由
Reason
AxiEJohn + 3 赞!

查看全部评分 View all ratings

750

帖子

21

威望

5426

eV
积分
6596

Level 6 (一方通行)

17#
发表于 Post on 2026-4-7 19:43:23 | 只看该作者 Only view this author
不想飞的猫头鹰 发表于 2026-4-6 21:37
感谢楼主大大,已经成功重新填写,并且检测MinerU和DeepSeek可用。不过尝试上传一个英文论文pdf后报错“ ...

给DeepSeek账号续点钱就好了

评分 Rate

参与人数
Participants 1
eV +2 收起 理由
Reason
不想飞的猫头鹰 + 2 谢谢

查看全部评分 View all ratings

131

帖子

0

威望

2121

eV
积分
2252

Level 5 (御坂)

16#
发表于 Post on 2026-4-7 11:12:45 | 只看该作者 Only view this author
wxyhgk 发表于 2026-4-7 10:36
这是什么阶段的错误?

ocr,翻译 还是什么部分

复现了一下 ,概览 中显示 6 正在判断跨栏/跨页连续段 这里开始failed。 失败 中显示阶段为translation。根因 402 Client Error: Payment Required for url: https://api.deepseek.com/v1/chat/completions

264

帖子

7

威望

2211

eV
积分
2615

Level 5 (御坂)

15#
 楼主 Author| 发表于 Post on 2026-4-7 10:36:21 | 只看该作者 Only view this author
不想飞的猫头鹰 发表于 2026-4-7 00:07
不知触发了什么关键词导致审核了一段时间。今天再次尝试,显示 任务失败,但暂未识别出明确根因 ,根因 [/b ...

这是什么阶段的错误?

ocr,翻译 还是什么部分

264

帖子

7

威望

2211

eV
积分
2615

Level 5 (御坂)

14#
 楼主 Author| 发表于 Post on 2026-4-7 08:50:17 | 只看该作者 Only view this author
不想飞的猫头鹰 发表于 2026-4-7 00:07
感谢,成功修改了token,不过处理pdf显示鉴权失败,是不是deepseek api并非免费使用的原因呀?任务详情的失 ...

DeepSeek API 自行充值

131

帖子

0

威望

2121

eV
积分
2252

Level 5 (御坂)

13#
发表于 Post on 2026-4-7 00:07:14 | 只看该作者 Only view this author
本帖最后由 不想飞的猫头鹰 于 2026-4-7 10:13 编辑

不知触发了什么关键词导致审核了一段时间。今天再次尝试,显示 任务失败,但暂未识别出明确根因 ,根因 - 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 (os error 10060)

131

帖子

0

威望

2121

eV
积分
2252

Level 5 (御坂)

12#
发表于 Post on 2026-4-6 21:37:43 | 只看该作者 Only view this author
wxyhgk 发表于 2026-4-6 18:24
已更新新版本,可以下载重试看看

感谢楼主大大,已经成功重新填写,并且检测MinerU和DeepSeek可用。不过尝试上传一个英文论文pdf后报错“任务失败,但暂未识别出明确根因”,详情的 失败 窗口下最近日志的最后一行是HTTPError: 402 Client Error: Payment Required for url: https://api.deepseek.com/v1/chat/completions 是不是使用api并非免费的呀

79

帖子

0

威望

1124

eV
积分
1203

Level 4 (黑子)

11#
发表于 Post on 2026-4-6 20:33:35 | 只看该作者 Only view this author
wxyhgk 发表于 2026-4-6 20:28
这个之前遇到过,某些特殊的扫描 pdf 会遇到这个问题。

我为了极致的体积压缩,有时候会出现这个问题 ...

原文 swope1982.pdf (1.23 MB, 下载次数 Times of downloads: 5)
翻译后 FYswope1982.pdf (1.52 MB, 下载次数 Times of downloads: 3)
改正错误有两个途径,一是别人发现,听取别人的批评;二是自我发现,进行自我批评。

264

帖子

7

威望

2211

eV
积分
2615

Level 5 (御坂)

10#
 楼主 Author| 发表于 Post on 2026-4-6 20:28:06 | 只看该作者 Only view this author
AxiEJohn 发表于 2026-4-6 19:54
刚好需要大量看文献就来了这个,很赞。

反馈一下使用情况,无伤大雅,易于修复的话可以修复一下

这个之前遇到过,某些特殊的扫描 pdf 会遇到这个问题。

我为了极致的体积压缩,有时候会出现这个问题。

你可以将 pdf 上传到蓝奏云盘 https://up.woozooo.com ,然后发送链接给我,我可以思考下后期怎么搞

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-4-24 17:43 , Processed in 0.326778 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list