计算化学公社

 找回密码 Forget password
 注册 Register

市面OCR软件小测

查看数: 738 | 评论数: 1 | 收藏 Add to favorites 7
关灯 | 提示:支持键盘翻页<-左 右->
    组图打开中,请稍候......
发布时间: 2025-3-6 02:19

正文摘要:

最近在搞一点LLM的应用工作,前期主要是对PDF进行文字识别和信息抽取。前者靠OCR软件,后者靠LLM。 OCR部分,试用了OlmOCR、Tesseract OCR(及二次开发版OCRMyPDF)、商业PDF软件、Grobid、PDF2TXT等。 在这些 ...

回复 Reply

ShiyuWang781 发表于 Post on 2025-4-23 14:32:02
还有一个工具叫MinerU,可以直接把pdf转化为md,数学公式也可以识别,不仅支持cuda也支持mps,我感觉比较好用
https://github.com/opendatalab/MinerU

手机版 Mobile version|北京科音自然科学研究中心 Beijing Kein Research Center for Natural Sciences|京公网安备 11010502035419号|计算化学公社 — 北京科音旗下高水平计算化学交流论坛 ( 京ICP备14038949号-1 )|网站地图

GMT+8, 2025-8-12 21:40 , Processed in 0.186303 second(s), 26 queries , Gzip On.

快速回复 返回顶部 返回列表 Return to list