“第10届量子化学波函数分析与Multiwfn程序培训班将于5月4-8日于北京举办,这是一次性完整、系统学习波函数分析的各种理论知识和全面掌握强大的Multiwfn波函数分析程序使用的最不可错过的机会!请点击此链接查看详情和报名方式,欢迎参加!

“第18届北京科音分子动力学与GROMACS培训班” 将于5月23-26日于北京举办。这是一次性全面、系统学习分子动力学模拟知识和最流行的分子动力学程序GROMACS的关键机会!报名正在进行中,请点击此链接查看详情,欢迎参加!

计算化学公社

 找回密码 Forget password
 注册 Register
Views: 580|回复 Reply: 19
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] RetainPDF:PDF 保留排版翻译工具

[复制链接 Copy URL]

262

帖子

7

威望

2180

eV
积分
2582

Level 5 (御坂)

本帖最后由 wxyhgk 于 2026-4-6 13:50 编辑





项目简介
科学无国界,但文献有语言墙。这个项目面向科研论文、技术手册、教材与扫描型 PDF,目标不是只把文字翻出来,而是在翻译后尽量保留原始版面、公式位置、双栏结构和阅读体验。

RetainPDF 当前已经打通一条完整链路:上传 PDF 或 OCR 结果,经过 OCR、翻译、排版重建与产物登记,最终输出保留排版的中文 PDF,并支持 Markdown、JSON、Typst 与调试产物下载。

https://github.com/wxyhgk/retain-pdf

除了基础链路之外,这个项目还持续在两个方向做了大量优化:

  • 字体与排版侧:针对不同页面密度、框尺寸、双栏结构和覆盖区域,持续调整字体大小自适应、覆盖背景、行块回填与页面可读性,尽量避免“字太大塞不下”或“字太小看不清”
  • 翻译侧:针对长文块、公式占位符、代码/命令行参数、失败重试与降级策略做了专门处理,目标不是单纯把文本翻成中文,而是尽量让结果稳定、完整、可直接阅读,后续还会开放翻译的 Rag 系统,让翻译达到出版级级别





本项目已完成 Windows,mac,linux 的全平台的打包应用,还有 docker 可供使用。

可到 https://github.com/wxyhgk/retain-pdf/releases 下载对应平台的安装包





  • 如果你只是自己在 Windows 电脑上使用,优先选 GitHub Releases 里的桌面版
  • 如果你在 macOS 上只是自己测试使用,也可以直接下载 GitHub Releases 里的 mac 包
  • 如果你想给局域网、团队或多台设备一起用,优先选 Docker 部署
  • 如果你希望后续自己更新镜像、改配置、接自己的 API key,也优先选 Docker 部署
  • 如果你不想关心端口、容器、环境变量,优先选桌面版


效果展示

SCI 论文







扫描版/图片型 PDF







图书













日/德/俄 PDF
这部分尚不稳定
















评分 Rate

参与人数
Participants 9
eV +45 收起 理由
Reason
leleyi + 5 GJ!
Diotima + 5
LittlePupil + 5 牛!
方方方 + 5 好物!
不想飞的猫头鹰 + 5 好物!
ChrisZheng + 5 赞!
wal + 5
yflchx + 5
Chao666 + 5 GJ!

查看全部评分 View all ratings

130

帖子

0

威望

2093

eV
积分
2223

Level 5 (御坂)

2#
发表于 Post on 2026-4-6 15:44:04 | 只看该作者 Only view this author
感谢楼主分享,看着好高级。刚下载,求教MinerU的token怎么填写呀?我从https://mineru.net/apiManage/docs复制/api/v4/extract/task到RetainPDF首次弹出的那个框里,deepseek的api也填了,但是上传pdf就立马显示MinerU的token鉴权失败

130

帖子

0

威望

2093

eV
积分
2223

Level 5 (御坂)

3#
发表于 Post on 2026-4-6 16:46:37 | 只看该作者 Only view this author
本帖最后由 不想飞的猫头鹰 于 2026-4-6 16:54 编辑

感谢楼主分享,求教MinerU的token填错了,从软件中没找到修改的地方,卸载后重装也没有让重新填写的地方,怎么办呀?不知可否加个重新填写的入口呢?

262

帖子

7

威望

2180

eV
积分
2582

Level 5 (御坂)

4#
 楼主 Author| 发表于 Post on 2026-4-6 16:56:04 | 只看该作者 Only view this author
不想飞的猫头鹰 发表于 2026-4-6 16:46
感谢楼主分享,求教MinerU的token填错了,从软件中没找到修改的地方,卸载后重装也没有让重新填写的地方, ...

我修改下前端吧

262

帖子

7

威望

2180

eV
积分
2582

Level 5 (御坂)

5#
 楼主 Author| 发表于 Post on 2026-4-6 18:24:40 | 只看该作者 Only view this author
不想飞的猫头鹰 发表于 2026-4-6 16:46
感谢楼主分享,求教MinerU的token填错了,从软件中没找到修改的地方,卸载后重装也没有让重新填写的地方, ...

已更新新版本,可以下载重试看看

64

帖子

0

威望

536

eV
积分
600

Level 4 (黑子)

6#
发表于 Post on 2026-4-6 19:01:25 | 只看该作者 Only view this author
这个可以支持除了ds以外的api吗

64

帖子

0

威望

536

eV
积分
600

Level 4 (黑子)

7#
发表于 Post on 2026-4-6 19:12:48 | 只看该作者 Only view this author
方方方 发表于 2026-4-6 19:01
这个可以支持除了ds以外的api吗

除了这个之外,还有一个小建议:翻译好的PDF命名也可以按照翻译后的名字(或者保持原名),而不是这个时间序列~
谢谢大佬!

262

帖子

7

威望

2180

eV
积分
2582

Level 5 (御坂)

8#
 楼主 Author| 发表于 Post on 2026-4-6 19:41:37 | 只看该作者 Only view this author
方方方 发表于 2026-4-6 19:01
这个可以支持除了ds以外的api吗

暂时不开放其他的 API

262

帖子

7

威望

2180

eV
积分
2582

Level 5 (御坂)

9#
 楼主 Author| 发表于 Post on 2026-4-6 19:45:18 | 只看该作者 Only view this author
方方方 发表于 2026-4-6 19:12
除了这个之外,还有一个小建议:翻译好的PDF命名也可以按照翻译后的名字(或者保持原名),而不是这个时 ...

这样不利于后续排查,而且目前的前端是一个过渡性质的东西,我的东西还没完善

79

帖子

0

威望

1102

eV
积分
1181

Level 4 (黑子)

10#
发表于 Post on 2026-4-6 19:54:24 | 只看该作者 Only view this author
本帖最后由 AxiEJohn 于 2026-4-6 19:59 编辑

刚好需要大量看文献就来了这个,很赞。

反馈一下使用情况,无伤大雅,易于修复的话可以修复一下
改正错误有两个途径,一是别人发现,听取别人的批评;二是自我发现,进行自我批评。

262

帖子

7

威望

2180

eV
积分
2582

Level 5 (御坂)

11#
 楼主 Author| 发表于 Post on 2026-4-6 20:28:06 | 只看该作者 Only view this author
AxiEJohn 发表于 2026-4-6 19:54
刚好需要大量看文献就来了这个,很赞。

反馈一下使用情况,无伤大雅,易于修复的话可以修复一下

这个之前遇到过,某些特殊的扫描 pdf 会遇到这个问题。

我为了极致的体积压缩,有时候会出现这个问题。

你可以将 pdf 上传到蓝奏云盘 https://up.woozooo.com ,然后发送链接给我,我可以思考下后期怎么搞

79

帖子

0

威望

1102

eV
积分
1181

Level 4 (黑子)

12#
发表于 Post on 2026-4-6 20:33:35 | 只看该作者 Only view this author
wxyhgk 发表于 2026-4-6 20:28
这个之前遇到过,某些特殊的扫描 pdf 会遇到这个问题。

我为了极致的体积压缩,有时候会出现这个问题 ...

原文 swope1982.pdf (1.23 MB, 下载次数 Times of downloads: 5)
翻译后 FYswope1982.pdf (1.52 MB, 下载次数 Times of downloads: 3)
改正错误有两个途径,一是别人发现,听取别人的批评;二是自我发现,进行自我批评。

130

帖子

0

威望

2093

eV
积分
2223

Level 5 (御坂)

13#
发表于 Post on 2026-4-6 21:37:43 | 只看该作者 Only view this author
wxyhgk 发表于 2026-4-6 18:24
已更新新版本,可以下载重试看看

感谢楼主大大,已经成功重新填写,并且检测MinerU和DeepSeek可用。不过尝试上传一个英文论文pdf后报错“任务失败,但暂未识别出明确根因”,详情的 失败 窗口下最近日志的最后一行是HTTPError: 402 Client Error: Payment Required for url: https://api.deepseek.com/v1/chat/completions 是不是使用api并非免费的呀

130

帖子

0

威望

2093

eV
积分
2223

Level 5 (御坂)

14#
发表于 Post on 7 day ago | 只看该作者 Only view this author
本帖最后由 不想飞的猫头鹰 于 2026-4-7 10:13 编辑

不知触发了什么关键词导致审核了一段时间。今天再次尝试,显示 任务失败,但暂未识别出明确根因 ,根因 - 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 (os error 10060)

262

帖子

7

威望

2180

eV
积分
2582

Level 5 (御坂)

15#
 楼主 Author| 发表于 Post on 7 day ago | 只看该作者 Only view this author
不想飞的猫头鹰 发表于 2026-4-7 00:07
感谢,成功修改了token,不过处理pdf显示鉴权失败,是不是deepseek api并非免费使用的原因呀?任务详情的失 ...

DeepSeek API 自行充值

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2026-4-14 11:48 , Processed in 0.325305 second(s), 24 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list