首页  |  信息资讯  |  资源检索  |  浏览精彩论坛 .
设为首页
收藏本站
站点导航
 新手学园 检索方法 国内文献 国外文献 FTP联盟 BT资源 网络资源 计算机技术 读书软件 外语学习
 网络经管 法律之窗 生命科学 教学相长 学术妙笔 读书参考 文学原创 多媒体 书园茶社 茶社转贴
 强国梦 秋爽斋 淡泊草 水清木华 书园旧梦     
您的位置: 首页 >> 信息资讯 >> 新手学园 >> 查看内容
原创  Wolfgg06 《用老马的TextForever和ComicEnhancerPro进行书页批量OCR》
作者: wolfgg06  发布日期: 2008-5-10    查看数:    出自: 网上读书园地


        很多书友在读CX或PDF的书以后,一定有冲动想把里面的文字OCR出来,我本人经常要这么做,因为做课件要用到,呵呵。
        OCR的软件和方法有很多,但是我推介的主要是老马的软件TextForever!我将TextForever和其他软件对比了一下,发现TextForever的ocr效果简直可以用惊艳来形容! 
        好了,废话少说,来实际的。TextForever进行OCR需要提供单色的TIFF图,下面先来介绍下怎么来获取单色TIFF。
        为了表现TextForever的效果,我这里用自拍的书页的例子!也算是对自扫和自拍的提倡吧,哈。有了老马的TextForever,再结合老马的ComicEnhancerPro(附带隆重推介),自扫自拍也能获得好效果。
        我的相机是Canon A610,拍下书页后偏暗,对比度不够,因此先要对原始照片进行预处理,可以用acdsee,需要做的是增加亮度和对比度。
        [attachment=170539]
        亮度:我一般用默认效果,直接点完成,哈。
        对比度:我一般是把两个滑块往中间凑,同时目测效果。
        [attachment=170541]
        这样处理完以后,得到的是非常清晰的书页,但是仍然不是我们所需的单色tiff,现在就需要ComicEnhancerPro上场了。因为ComicEnhancerPro可以批处理,要识别的书页一般比较多,这样就很快。其实书页亮度、对比调节也可以用ComicEnhancerPro的!只不过acdsee更适合新手!
        在ComicEnhancerPro下选择“文件/批量处理”,在弹出的设置框进行一番设置,要选择原文件和目标文件的存放位置,文件扩展名一定得是tif,色彩必须是“单色”。然后按“全部转换”就可以了。
        [attachment=170547]   
        下面看下转换后的某书的两个效果例图。(图已压缩,原图比这个大、清晰、不会缺笔划。)
        例页1:
      [attachment=170564] 
        例页2:
      [attachment=170565]
        大家会发现,书页中存在文字歪、扭曲的情况,会不会影响OCR的效果呢?据我的经验,不用太担心!要相信老马!呵呵。
        最后,关键角色TextForever终于要显神通了!运行TextForever,选择OCR标签,设定好TIFF所在文件夹,是否将结果存入单个文件,识别语言一般就是“简体中文”,由于自扫自拍的书页一般比较歪,文字容易扭曲,尤其是书边缘处,因此要勾上“自动旋转”和“自动拉伸”,设好就可以点“开始OCR”啦。
    [attachment=170548]
      很快,你就可以去领教一下OCR的效果啦。呵呵。
      其实,PDG的书、PDF的书也可以用TextForever结合ComicEnhancerPro进行OCR,前者要用到老马的PDG2PIC,后者要用Adobe Acrobat将PDF转为单页图像文件,大家可以尝试一下,呵呵。
      最后,怎么得到老马的这几个软件呢?帮老马宣传下,老马的主页地址是———— 
      http://www.comicer.com/stronghorse/
      两个软件的下载地址:
      http://www.comicer.com/stronghor ... TextForever_chn.zip
      http://www.comicer.com/stronghor ... EnhancerPro_chn.zip












【论坛浏览】 【我来说两句】 【打印】 【大】 【中】 【小】 【关闭】

 相关评论
作者: wolfgg06 发布日期: 2008-5-10
简单介绍了一下自己的经验,供新人参考,高手指点。  
作者: lll999888 发布日期: 2008-5-10

第一次听说老马有这样的软件,谢谢新贵介绍,使用一下!!
作者: deeping 发布日期: 2008-5-11
楼主在快速崛起啊,不错
作者: linencl 发布日期: 2008-5-12
俺的一点经验:

ocr大图文字的一点经验:用老马的ComicEnhancerPro将图放大一倍并去水印,即从150dpi升到
300dpi,然后再用汉王识别就可以了.基本都能识别出来.
作者: elibaba 发布日期: 2008-5-12
直接在老马的独角兽里ocr,效果不错。
作者: coldice171 发布日期: 2008-5-15
感谢老马和wolfgg06,刚才按这方法用了,不错
作者: strnghrs 发布日期: 2008-5-20
1、ComicEnhancer Pro本身就带图像处理功能,不一定用到ACDSEE。
2、TextForever OCR后的段落处理比较麻烦,如果要OCR整本书,我自己都是用TiffToy合并成多页TIFF,然后用MODI发送到Word,另存为txt,这样段落基本不用重排。
作者: jn2nj 发布日期: 2008-5-20
系统里面的offic没带MODI 怎么办?
作者: wolfgg06 发布日期: 2008-5-20
谢谢老马!第一点我也提到了,呵呵。
第二点确实是好经验,这就试一下。
QUOTE:
引用第7楼strnghrs于2008-05-20 08:31发表的  :
1、ComicEnhancer Pro本身就带图像处理功能,不一定用到ACDSEE。
2、TextForever OCR后的段落处理比较麻烦,如果要OCR整本书,我自己都是用TiffToy合并成多页TIFF,然后用MODI发送到Word,另存为txt,这样段落基本不用重排。

作者: wolfgg06 发布日期: 2008-5-20
可参考老马文章:
http://www.comicer.com/stronghorse/water/software/officeocr.htm
文章中对modi的安装、配置都作了详细介绍。
中间提到下面的链接可直接下载modi模块。
http://www.microsoft.com/downloa ... 6&displaylang=zh-tw
QUOTE:
引用第8楼jn2nj于2008-05-20 19:04发表的  :
系统里面的offic没带MODI 怎么办?

共有评论数 26/每页显示数 10

 我来说两句
请遵守国家法律和互联网法规。
您要为您所发的言论的后果负责,故请各位遵纪守法并注意语言文明。
注意:系统启用了静态/缓存功能,您的回复可能不能立即显示。
 热点主题
·我为论坛献一计
·原创  linencl 《用超星方式阅读自扫
·征集新手答题送财富、威望的题目
·分享  yngwie《我眼中的书园》
·分享  hufucopy 《我眼中的书园》
·分享  step《分享你眼中的书园三——我
·分享  Lawer67 《我眼中的书园》
·分享  毛驴《我眼中的书园——DIYer成了
·随便教导新手一法子,有兴趣就来看看
·提个建议呦
·(号召)国难当前,请大家出力参与 抗震救
·分享  cmmy1985《我眼中的书园》
·激动一下
·分享  linencl 《我眼中的书园》
·下午默哀期间,请勿发帖!违反者删除ID
 最新主题
·随便教导新手一法子,有兴趣就来看看
·分享  zhangsmart06《我眼中的书园》
·(号召)国难当前,请大家出力参与 抗震救
·我来报道!!!
·下午默哀期间,请勿发帖!违反者删除ID
·分享  wfrancis 《我眼中的书园》
·赈灾公益设计活动
·分享  sunyasong《我眼中的书园》
·我为论坛献一计
·新手报道,发帖支持!
·分享  linencl 《我眼中的书园》
·提个建议呦
·莫忘“新手学园”,常回家看看!
·分享  Lawer67 《我眼中的书园》
·征集新手答题送财富、威望的题目
 
 
 
 XML   RSS 2.0   WAP 
 
版权所有  2005  网上读书园地  免责声明  最佳分辨率  1024 X 768
Copyright   ©  http://www.readfree.net  All rights reserved.  Powered by supstie™
鄂ICP备05004310号