首页
|
信息资讯
|
资源检索
|
浏览精彩论坛
.
设为首页
收藏本站
站点导航
新手学园
检索方法
国内文献
国外文献
FTP联盟
BT资源
网络资源
计算机技术
读书软件
外语学习
网络经管
法律之窗
生命科学
教学相长
学术妙笔
读书参考
文学原创
多媒体
书园茶社
茶社转贴
强国梦
秋爽斋
淡泊草
水清木华
书园旧梦
您的位置:
首页
>>
信息资讯
>>
新手学园
>> 查看内容
原创 Wolfgg06 《用老马的TextForever和ComicEnhancerPro进行书页批量OCR》
作者: wolfgg06 发布日期: 2008-5-10 查看数: 出自:
网上读书园地
很多书友在读CX或PDF的书以后,一定有冲动想把里面的文字OCR出来,我本人经常要这么做,因为做课件要用到,呵呵。
OCR的软件和方法有很多,但是我推介的主要是老马的软件TextForever!我将TextForever和其他软件对比了一下,发现TextForever的ocr效果简直可以用惊艳来形容!
好了,废话少说,来实际的。TextForever进行OCR需要提供单色的TIFF图,下面先来介绍下怎么来获取单色TIFF。
为了表现TextForever的效果,我这里用自拍的书页的例子!也算是对自扫和自拍的提倡吧,哈。有了老马的TextForever,再结合老马的ComicEnhancerPro(附带隆重推介),自扫自拍也能获得好效果。
我的相机是Canon A610,拍下书页后偏暗,对比度不够,因此先要对原始照片进行预处理,可以用acdsee,需要做的是增加亮度和对比度。
[attachment=170539]
亮度:我一般用默认效果,直接点完成,哈。
对比度:我一般是把两个滑块往中间凑,同时目测效果。
[attachment=170541]
这样处理完以后,得到的是非常清晰的书页,但是仍然不是我们所需的单色tiff,现在就需要ComicEnhancerPro上场了。因为ComicEnhancerPro可以批处理,要识别的书页一般比较多,这样就很快。其实书页亮度、对比调节也可以用ComicEnhancerPro的!只不过acdsee更适合新手!
在ComicEnhancerPro下选择“文件/批量处理”,在弹出的设置框进行一番设置,要选择原文件和目标文件的存放位置,文件扩展名一定得是tif,色彩必须是“单色”。然后按“全部转换”就可以了。
[attachment=170547]
下面看下转换后的某书的两个效果例图。(图已压缩,原图比这个大、清晰、不会缺笔划。)
例页1:
[attachment=170564]
例页2:
[attachment=170565]
大家会发现,书页中存在文字歪、扭曲的情况,会不会影响OCR的效果呢?据我的经验,不用太担心!要相信老马!呵呵。
最后,关键角色TextForever终于要显神通了!运行TextForever,选择OCR标签,设定好TIFF所在文件夹,是否将结果存入单个文件,识别语言一般就是“简体中文”,由于自扫自拍的书页一般比较歪,文字容易扭曲,尤其是书边缘处,因此要勾上“自动旋转”和“自动拉伸”,设好就可以点“开始OCR”啦。
[attachment=170548]
很快,你就可以去领教一下OCR的效果啦。呵呵。
其实,PDG的书、PDF的书也可以用TextForever结合ComicEnhancerPro进行OCR,前者要用到老马的PDG2PIC,后者要用Adobe Acrobat将PDF转为单页图像文件,大家可以尝试一下,呵呵。
最后,怎么得到老马的这几个软件呢?帮老马宣传下,老马的主页地址是————
http://www.comicer.com/stronghorse/
两个软件的下载地址:
http://www.comicer.com/stronghor ... TextForever_chn.zip
http://www.comicer.com/stronghor ... EnhancerPro_chn.zip
【论坛浏览】
【我来说两句】
【打印】
【大】
【中】
【小】
【关闭】
相关评论
作者: wolfgg06 发布日期: 2008-5-10
简单介绍了一下自己的经验,供新人参考,高手指点。
作者: lll999888 发布日期: 2008-5-10
第一次听说老马有这样的软件,谢谢新贵介绍,使用一下!!
作者: deeping 发布日期: 2008-5-11
楼主在快速崛起啊,不错
作者: linencl 发布日期: 2008-5-12
俺的一点经验:
ocr大图文字的一点经验:用老马的ComicEnhancerPro将图放大一倍并去水印,即从150dpi升到
300dpi,然后再用汉王识别就可以了.基本都能识别出来.
作者: elibaba 发布日期: 2008-5-12
直接在老马的独角兽里ocr,效果不错。
作者: coldice171 发布日期: 2008-5-15
感谢老马和wolfgg06,刚才按这方法用了,不错
作者: strnghrs 发布日期: 2008-5-20
1、ComicEnhancer Pro本身就带图像处理功能,不一定用到ACDSEE。
2、TextForever OCR后的段落处理比较麻烦,如果要OCR整本书,我自己都是用TiffToy合并成多页TIFF,然后用MODI发送到Word,另存为txt,这样段落基本不用重排。
作者: jn2nj 发布日期: 2008-5-20
系统里面的offic没带MODI 怎么办?
作者: wolfgg06 发布日期: 2008-5-20
谢谢老马!第一点我也提到了,呵呵。
第二点确实是好经验,这就试一下。
QUOTE:
引用第7楼strnghrs于2008-05-20 08:31发表的 :
1、ComicEnhancer Pro本身就带图像处理功能,不一定用到ACDSEE。
2、TextForever OCR后的段落处理比较麻烦,如果要OCR整本书,我自己都是用TiffToy合并成多页TIFF,然后用MODI发送到Word,另存为txt,这样段落基本不用重排。
作者: wolfgg06 发布日期: 2008-5-20
可参考老马文章:
http://www.comicer.com/stronghorse/water/software/officeocr.htm
文章中对modi的安装、配置都作了详细介绍。
中间提到下面的链接可直接下载modi模块。
http://www.microsoft.com/downloa ... 6&displaylang=zh-tw
QUOTE:
引用第8楼jn2nj于2008-05-20 19:04发表的 :
系统里面的offic没带MODI 怎么办?
共有评论数 26/每页显示数 10
我来说两句
请遵守国家法律和互联网法规。
您要为您所发的言论的后果负责,故请各位遵纪守法并注意语言文明。
注意:系统启用了静态/缓存功能,您的回复可能不能立即显示。
热点主题
·
我为论坛献一计
·
原创 linencl 《用超星方式阅读自扫
·
征集新手答题送财富、威望的题目
·
分享 yngwie《我眼中的书园》
·
分享 hufucopy 《我眼中的书园》
·
分享 step《分享你眼中的书园三——我
·
分享 Lawer67 《我眼中的书园》
·
分享 毛驴《我眼中的书园——DIYer成了
·
随便教导新手一法子,有兴趣就来看看
·
提个建议呦
·
(号召)国难当前,请大家出力参与 抗震救
·
分享 cmmy1985《我眼中的书园》
·
激动一下
·
分享 linencl 《我眼中的书园》
·
下午默哀期间,请勿发帖!违反者删除ID
最新主题
·
随便教导新手一法子,有兴趣就来看看
·
分享 zhangsmart06《我眼中的书园》
·
(号召)国难当前,请大家出力参与 抗震救
·
我来报道!!!
·
下午默哀期间,请勿发帖!违反者删除ID
·
分享 wfrancis 《我眼中的书园》
·
赈灾公益设计活动
·
分享 sunyasong《我眼中的书园》
·
我为论坛献一计
·
新手报道,发帖支持!
·
分享 linencl 《我眼中的书园》
·
提个建议呦
·
莫忘“新手学园”,常回家看看!
·
分享 Lawer67 《我眼中的书园》
·
征集新手答题送财富、威望的题目
XML
RSS 2.0
WAP
版权所有 2005 网上读书园地
免责声明
最佳分辨率 1024 X 768
Copyright © http://www.readfree.net All rights reserved. Powered by
supstie™
鄂ICP备05004310号