计算化学公社

 找回密码 Forget password
 注册 Register
Views: 736|回复 Reply: 1
打印 Print 上一主题 Last thread 下一主题 Next thread

[综合交流] 市面OCR软件小测

[复制链接 Copy URL]

395

帖子

8

威望

3906

eV
积分
4461

Level 6 (一方通行)

石墨

最近在搞一点LLM的应用工作,前期主要是对PDF进行文字识别和信息抽取。前者靠OCR软件,后者靠LLM。

OCR部分,试用了OlmOCR、Tesseract OCR(及二次开发版OCRMyPDF)、商业PDF软件、Grobid、PDF2TXT等。

在这些模型当中,OlmOCR、是基于视觉大模型模型的,必须用显卡。Grobid可以CPU可以GPU,用GPU效果更好一点。商业PDF软件只用钱,效果因厂商而异。PDF2TXT是一个轻量的Python库,只适合抽取最简单的文档。

对相同的百篇文献的实测效果中,OlmOCR >>  Grobid GPU ~ 商业PDF软件中较好的那些 >=  Grobid CPU ~ Tesseract OCR ~ >> PDF2TXT ~ 商业PDF软件中较差的那些

追求最高质量优选OlmOCR(https://olmocr.allenai.org/,有个免费demo),是热乎的新开源项目(2025)。能够非常精准地抽取文字和表格,能够忠实地还原文本的顺序、结构,对于数学公式在大部分情况下也是准的。支持若干种语言(至少我试了中文、英文、日语、西班牙语、德语都没问题),效果最佳。但是OlmOCR在批量处理时极其吃显存和内存,我直接吃到了74G显存+100G内存。想稳健使用需要H800(租卡13.5元/小时),一个小时可以抽取数千至万页。



我不知道官方是怎么号称20G显存能跑的,可能做了参数量化+flash attention?不过不进去改模型调用代码是改不了的,外部命令行参数改了也并不能减少多少消耗。官方说成本是$1.9/万页,和我算着差不多。需要注意依赖库有10G,模型参数也有16G,从pip和huggingface拉取模型参数时需要代理优化,或者通过pip镜像/hf-mirror镜像。转出来是jsonl格式。

追求最高速度、本地使用,能够接受失败率,优选Grobid CPU版本。需要注意Grobid产生的是一种xml文件,后面需要自己(AI)写个python脚本转一下txt。我用它抽了大概2.5万篇论文,主体内容都还可以,参考文献和公式有时比较难绷,偶尔会因为分栏、小文本框出现位置错乱。总体而言95%的情况下能用,2-5%的文档比较失败的。优势在于部署非常方便(docker),消耗也少,笔记本四线程并发消耗16 G内存,一小时抽取数万页。而且自己带一个API服务。

商业软件非常一言难尽,好的其实确实不错,网页端点开即用,可以在线自己修改小错误、重切等。就是价格来到50-100元每万页,资料少、比较重要的话可以手操。烂的你很难想象,竟然跟PDF2TXT这个只有kb级的python库一个档次,甚至还不如,充斥着一个公式切成30行的窒息结果。结果这还要几刀一小时的云服务/容器。

评分 Rate

参与人数
Participants 2
eV +6 收起 理由
Reason
LittlePupil + 3 GJ!
student0618 + 3 谢谢分享

查看全部评分 View all ratings

自在飞花轻似梦,无边丝雨细如愁。

全自动反应动力学(ReaxFF、AIMD、NEP等)后处理工具网页版:http://cc-portal.xyz/reax_tools

39

帖子

0

威望

192

eV
积分
231

Level 3 能力者

2#
发表于 Post on 2025-4-23 14:32:02 | 只看该作者 Only view this author
还有一个工具叫MinerU,可以直接把pdf转化为md,数学公式也可以识别,不仅支持cuda也支持mps,我感觉比较好用
https://github.com/opendatalab/MinerU

本版积分规则 Credits rule

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 18:13 , Processed in 0.165190 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list