本帖最后由 wxyhgk 于 2026-4-6 13:50 编辑
项目简介
科学无国界,但文献有语言墙。这个项目面向科研论文、技术手册、教材与扫描型 PDF,目标不是只把文字翻出来,而是在翻译后尽量保留原始版面、公式位置、双栏结构和阅读体验。
RetainPDF 当前已经打通一条完整链路:上传 PDF 或 OCR 结果,经过 OCR、翻译、排版重建与产物登记,最终输出保留排版的中文 PDF,并支持 Markdown、JSON、Typst 与调试产物下载。
https://github.com/wxyhgk/retain-pdf
除了基础链路之外,这个项目还持续在两个方向做了大量优化:
- 字体与排版侧:针对不同页面密度、框尺寸、双栏结构和覆盖区域,持续调整字体大小自适应、覆盖背景、行块回填与页面可读性,尽量避免“字太大塞不下”或“字太小看不清”
- 翻译侧:针对长文块、公式占位符、代码/命令行参数、失败重试与降级策略做了专门处理,目标不是单纯把文本翻成中文,而是尽量让结果稳定、完整、可直接阅读,后续还会开放翻译的 Rag 系统,让翻译达到出版级级别
本项目已完成 Windows,mac,linux 的全平台的打包应用,还有 docker 可供使用。
可到 https://github.com/wxyhgk/retain-pdf/releases 下载对应平台的安装包
- 如果你只是自己在 Windows 电脑上使用,优先选 GitHub Releases 里的桌面版
- 如果你在 macOS 上只是自己测试使用,也可以直接下载 GitHub Releases 里的 mac 包
- 如果你想给局域网、团队或多台设备一起用,优先选 Docker 部署
- 如果你希望后续自己更新镜像、改配置、接自己的 API key,也优先选 Docker 部署
- 如果你不想关心端口、容器、环境变量,优先选桌面版
效果展示
SCI 论文
扫描版/图片型 PDF
图书
日/德/俄 PDF
这部分尚不稳定
|