找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 336|回复: 7

[【品茶论道】] 当年流行一时的文本pdg是用什么软件OCR制作的?

[复制链接]
发表于 2025-4-14 10:28:54 | 显示全部楼层 |阅读模式
现在流行的epub(汇雅的,曾经的亚马逊电子书)也是一样,一脉相承。
他们都有一个共同点:用一个截图来代替一个字符。这个字符可能是个生僻字,或者太模糊吃不准,或者其他什么情况。
之所以有此一问是因为这是一个不错的思路来提高Ocr识别率,当然你可以说是取巧的,但总好过那些使用漏过这些字来提高总体识别率的软件。
老的
光学识别技术似乎已经到达难以克服的瓶颈,很多的ocr软件都是这样,大牌的有abbyy,反而一些老的ocr软件情况相对好些如汉王。
有人会有意见,你这都老黄历了,现在ocr技术已经插上了ai的翅膀,今非昔比,是的,但漏字的问题并没有解决,可能机理类似ai幻觉吧,我想,算法算力的问题,有些东西被视而不见的忽略掉了。

回复

使用道具 举报

发表于 2025-4-14 10:31:50 | 显示全部楼层
我在知乎上有ocr把元识别成了玄,可能是ai的训练文本自动回改避讳字的,这是个新问题。
回复

使用道具 举报

发表于 2025-4-14 10:39:25 | 显示全部楼层
汉王汉王汉王
回复 1 0

使用道具 举报

发表于 2025-4-14 10:54:12 | 显示全部楼层
横槊赋诗 发表于 2025-4-14 10:31
我在知乎上有ocr把元识别成了玄,可能是ai的训练文本自动回改避讳字的,这是个新问题。 ...

如果是因为避讳,其他字有没有回改呢。毕竟历史上避讳字不少。
回复

使用道具 举报

发表于 2025-4-14 10:55:28 | 显示全部楼层
小可拉好 发表于 2025-4-14 10:54
如果是因为避讳,其他字有没有回改呢。毕竟历史上避讳字不少。

中华书局的二十四史好像全盘改了避讳字,陈垣《史讳举例》举出的例子,我发现现在的通行本好像全跟着改了
回复

使用道具 举报

发表于 2025-4-14 10:57:36 | 显示全部楼层
横槊赋诗 发表于 2025-4-14 10:55
中华书局的二十四史好像全盘改了避讳字,陈垣《史讳举例》举出的例子,我发现现在的通行本好像全跟着改了 ...

我说的是ocr大模型自动回改。
回复

使用道具 举报

发表于 2025-4-14 11:12:21 | 显示全部楼层
OCR讲究的是一模一样
改字那是你出书之前就要改啊
哪有出书完了再改什么避讳字的
什么漏字截图代表一个字之类的还不是用的字体,字太少了,不匹配大容量字字库,没这字啊,要解决就要底层解决这问题,换多少万多少万字的字库啊
而不是一直什么2312什么18030之类的玩意
记得以前公安局那系统里好多生僻字还打不出来呢。。。
回复

使用道具 举报

发表于 2025-4-14 11:48:19 | 显示全部楼层
那时候最讨厌这个了,经常丢失格式,缺字啊。
当时宁可要大图扫描的,不要这个
回复

使用道具 举报

 楼主| 发表于 2025-4-14 11:58:06 | 显示全部楼层

老马大侠,真的吗?哪款汉王?专业版?具体名称是什么?能提供下载链接更好。
肯定不是我曾经喜欢使用的“HWPDFOCR8”,家庭版的。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-3-15 06:27 , Processed in 0.084981 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表