计算化学公社

标题: RetainPDF:PDF 保留排版翻译工具 [打印本页]

作者
Author:
wxyhgk    时间: 2026-4-6 13:50
标题: RetainPDF:PDF 保留排版翻译工具
本帖最后由 wxyhgk 于 2026-4-6 13:50 编辑



(, 下载次数 Times of downloads: 3)


项目简介
科学无国界,但文献有语言墙。这个项目面向科研论文、技术手册、教材与扫描型 PDF,目标不是只把文字翻出来,而是在翻译后尽量保留原始版面、公式位置、双栏结构和阅读体验。

RetainPDF 当前已经打通一条完整链路:上传 PDF 或 OCR 结果,经过 OCR、翻译、排版重建与产物登记,最终输出保留排版的中文 PDF,并支持 Markdown、JSON、Typst 与调试产物下载。

https://github.com/wxyhgk/retain-pdf

除了基础链路之外,这个项目还持续在两个方向做了大量优化:


(, 下载次数 Times of downloads: 3)




本项目已完成 Windows,mac,linux 的全平台的打包应用,还有 docker 可供使用。

可到 https://github.com/wxyhgk/retain-pdf/releases 下载对应平台的安装包


(, 下载次数 Times of downloads: 1)





效果展示

SCI 论文

(, 下载次数 Times of downloads: 2)


(, 下载次数 Times of downloads: 2)




扫描版/图片型 PDF

(, 下载次数 Times of downloads: 3)


(, 下载次数 Times of downloads: 3)




图书

(, 下载次数 Times of downloads: 1)



(, 下载次数 Times of downloads: 1)


(, 下载次数 Times of downloads: 3)







日/德/俄 PDF
这部分尚不稳定

(, 下载次数 Times of downloads: 0)



(, 下载次数 Times of downloads: 2)




(, 下载次数 Times of downloads: 4)









作者
Author:
不想飞的猫头鹰    时间: 2026-4-6 15:44
感谢楼主分享,看着好高级。刚下载,求教MinerU的token怎么填写呀?我从https://mineru.net/apiManage/docs复制/api/v4/extract/task到RetainPDF首次弹出的那个框里,deepseek的api也填了,但是上传pdf就立马显示MinerU的token鉴权失败
作者
Author:
不想飞的猫头鹰    时间: 2026-4-6 16:46
本帖最后由 不想飞的猫头鹰 于 2026-4-6 16:54 编辑

感谢楼主分享,求教MinerU的token填错了,从软件中没找到修改的地方,卸载后重装也没有让重新填写的地方,怎么办呀?不知可否加个重新填写的入口呢?
作者
Author:
wxyhgk    时间: 2026-4-6 16:56
不想飞的猫头鹰 发表于 2026-4-6 16:46
感谢楼主分享,求教MinerU的token填错了,从软件中没找到修改的地方,卸载后重装也没有让重新填写的地方, ...

我修改下前端吧
作者
Author:
wxyhgk    时间: 2026-4-6 18:24
不想飞的猫头鹰 发表于 2026-4-6 16:46
感谢楼主分享,求教MinerU的token填错了,从软件中没找到修改的地方,卸载后重装也没有让重新填写的地方, ...

已更新新版本,可以下载重试看看
作者
Author:
方方方    时间: 2026-4-6 19:01
这个可以支持除了ds以外的api吗

作者
Author:
方方方    时间: 2026-4-6 19:12
方方方 发表于 2026-4-6 19:01
这个可以支持除了ds以外的api吗

除了这个之外,还有一个小建议:翻译好的PDF命名也可以按照翻译后的名字(或者保持原名),而不是这个时间序列~
谢谢大佬!
作者
Author:
wxyhgk    时间: 2026-4-6 19:41
方方方 发表于 2026-4-6 19:01
这个可以支持除了ds以外的api吗

暂时不开放其他的 API
作者
Author:
wxyhgk    时间: 2026-4-6 19:45
方方方 发表于 2026-4-6 19:12
除了这个之外,还有一个小建议:翻译好的PDF命名也可以按照翻译后的名字(或者保持原名),而不是这个时 ...

这样不利于后续排查,而且目前的前端是一个过渡性质的东西,我的东西还没完善
作者
Author:
AxiEJohn    时间: 2026-4-6 19:54
本帖最后由 AxiEJohn 于 2026-4-6 19:59 编辑

刚好需要大量看文献就来了这个,很赞。

反馈一下使用情况,无伤大雅,易于修复的话可以修复一下
(, 下载次数 Times of downloads: 0)
作者
Author:
wxyhgk    时间: 2026-4-6 20:28
AxiEJohn 发表于 2026-4-6 19:54
刚好需要大量看文献就来了这个,很赞。

反馈一下使用情况,无伤大雅,易于修复的话可以修复一下

这个之前遇到过,某些特殊的扫描 pdf 会遇到这个问题。

我为了极致的体积压缩,有时候会出现这个问题。

你可以将 pdf 上传到蓝奏云盘 https://up.woozooo.com ,然后发送链接给我,我可以思考下后期怎么搞
作者
Author:
AxiEJohn    时间: 2026-4-6 20:33
wxyhgk 发表于 2026-4-6 20:28
这个之前遇到过,某些特殊的扫描 pdf 会遇到这个问题。

我为了极致的体积压缩,有时候会出现这个问题 ...

原文 (, 下载次数 Times of downloads: 5)
翻译后 (, 下载次数 Times of downloads: 3)

作者
Author:
不想飞的猫头鹰    时间: 2026-4-6 21:37
wxyhgk 发表于 2026-4-6 18:24
已更新新版本,可以下载重试看看

感谢楼主大大,已经成功重新填写,并且检测MinerU和DeepSeek可用。不过尝试上传一个英文论文pdf后报错“任务失败,但暂未识别出明确根因”,详情的 失败 窗口下最近日志的最后一行是HTTPError: 402 Client Error: Payment Required for url: https://api.deepseek.com/v1/chat/completions 是不是使用api并非免费的呀
作者
Author:
不想飞的猫头鹰    时间: 7 day ago
本帖最后由 不想飞的猫头鹰 于 2026-4-7 10:13 编辑

不知触发了什么关键词导致审核了一段时间。今天再次尝试,显示 任务失败,但暂未识别出明确根因 ,根因 - 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。 (os error 10060)
作者
Author:
wxyhgk    时间: 7 day ago
不想飞的猫头鹰 发表于 2026-4-7 00:07
感谢,成功修改了token,不过处理pdf显示鉴权失败,是不是deepseek api并非免费使用的原因呀?任务详情的失 ...

DeepSeek API 自行充值
作者
Author:
wxyhgk    时间: 7 day ago
不想飞的猫头鹰 发表于 2026-4-7 00:07
不知触发了什么关键词导致审核了一段时间。今天再次尝试,显示 任务失败,但暂未识别出明确根因 ,根因 [/b ...

这是什么阶段的错误?

ocr,翻译 还是什么部分
作者
Author:
不想飞的猫头鹰    时间: 7 day ago
wxyhgk 发表于 2026-4-7 10:36
这是什么阶段的错误?

ocr,翻译 还是什么部分

复现了一下 ,概览 中显示 6 正在判断跨栏/跨页连续段 这里开始failed。 失败 中显示阶段为translation。根因 402 Client Error: Payment Required for url: https://api.deepseek.com/v1/chat/completions
作者
Author:
beefly    时间: 7 day ago
不想飞的猫头鹰 发表于 2026-4-6 21:37
感谢楼主大大,已经成功重新填写,并且检测MinerU和DeepSeek可用。不过尝试上传一个英文论文pdf后报错“ ...

给DeepSeek账号续点钱就好了
作者
Author:
wxyhgk    时间: 5 day ago
AxiEJohn 发表于 2026-4-6 20:33
原文
翻译后

v4.0.5-beta 版本已解决该问题
作者
Author:
yzh    时间: yesterday 16:34
强是真的强,就是只能填deepseek的API,需要充值,翻译11页大概2毛钱消耗token。哈哈




欢迎光临 计算化学公社 (http://bbs.keinsci.com/) Powered by Discuz! X3.3