找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 378|回复: 10

[【其它】] 分享一个基于大模型的OCR方法

[复制链接]
发表于 2025-3-3 08:41:43 | 显示全部楼层 |阅读模式

一个用于训练语言模型以处理野生环境中的 PDF 文档的工具包。
尝试在线演示: https://olmocr.allenai.org/
包含的内容:
使用 ChatGPT 4o 的一种提示策略以获得真正自然的文本解析 - buildsilver.py
并排评估工具包,用于比较不同管道版本 - runeval.py
基本语言过滤和 SEO 垃圾信息去除 - filter.py
Fine-tuning code for Qwen2-VL and Molmo-O - train.py
处理大量 PDF 文件通过微调模型使用 Sglang - pipeline.py
查看从 PDF 创建的 Dolma 文档 - dolmaviewer.py


https://github.com/allenai/olmocr




评分

1

查看全部评分

回复

使用道具 举报

发表于 2025-3-3 10:04:52 | 显示全部楼层
给个百度云盘就好了,打不开GIT
回复

使用道具 举报

 楼主| 发表于 2025-3-3 10:17:14 | 显示全部楼层
西屋主人 发表于 2025-3-3 10:04
给个百度云盘就好了,打不开GIT

需要部署的。本身门槛就高,没法开箱即用。
回复 1 0

使用道具 举报

发表于 2025-3-3 10:40:01 | 显示全部楼层
感谢分享,晚点试试
回复

使用道具 举报

发表于 2025-3-3 10:45:14 | 显示全部楼层
没编译好的自己操作不了
回复

使用道具 举报

发表于 2025-3-3 10:58:01 | 显示全部楼层
Doiiars 发表于 2025-3-3 10:17
需要部署的。本身门槛就高,没法开箱即用。

确实有门槛了,刚下载看。
回复

使用道具 举报

发表于 2025-3-3 15:14:08 | 显示全部楼层
估计电脑不行 用不上了
回复

使用道具 举报

发表于 2025-3-4 16:58:03 | 显示全部楼层
这个项目可以看作 nougat 的继任者,非常有前景

谢谢分享
回复

使用道具 举报

发表于 2025-3-5 19:03:20 | 显示全部楼层
有没有能给不懂技术的小白用的
回复

使用道具 举报

发表于 2025-3-5 19:52:37 | 显示全部楼层
在线演示的OCR效果很好啊,看看去,谢谢楼主分享
回复

使用道具 举报

发表于 2025-3-6 01:30:56 | 显示全部楼层
感谢分享,OCR应该走大模型路线
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2025-12-7 07:20 , Processed in 0.093069 second(s), 10 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表