网上读书园地论坛 » 新手学园 » 原创  Wolfgg06 《用老马的TextForever和ComicEnhancerPro进行书页批量OCR》
« 1 2» Pages: ( 1/2 total )
本页主题: 原创  Wolfgg06 《用老马的TextForever和ComicEnhancerPro进行书页批量OCR》 打印 | 加为IE收藏 | 收藏主题 | 上一主题 | 下一主题

wolfgg06

该用户目前不在线
级别: 初级认证会员
精华: 1
发帖: 1564
威望: 564 点
财富: 82 论坛币
活期存款: 3358
定期存款: 0
总资产: 3440 论坛币
在线时间:1102.5(小时)
注册时间:2008-03-04 00:07
最后登录:2008-11-13 16:10

原创  Wolfgg06 《用老马的TextForever和ComicEnhancerPro进行书页批量OCR》

本帖被 capricorn_ye 执行提前操作(2008-11-08)
        很多书友在读CX或PDF的书以后,一定有冲动想把里面的文字OCR出来,我本人经常要这么做,因为做课件要用到,呵呵。
        OCR的软件和方法有很多,但是我推介的主要是老马的软件TextForever!我将TextForever和其他软件对比了一下,发现TextForever的ocr效果简直可以用惊艳来形容! 
        好了,废话少说,来实际的。TextForever进行OCR需要提供单色的TIFF图,下面先来介绍下怎么来获取单色TIFF。
        为了表现TextForever的效果,我这里用自拍的书页的例子!也算是对自扫和自拍的提倡吧,哈。有了老马的TextForever,再结合老马的ComicEnhancerPro(附带隆重推介),自扫自拍也能获得好效果。
        我的相机是Canon A610,拍下书页后偏暗,对比度不够,因此先要对原始照片进行预处理,可以用acdsee,需要做的是增加亮度和对比度。
       

        亮度:我一般用默认效果,直接点完成,哈。
        对比度:我一般是把两个滑块往中间凑,同时目测效果。
       

        这样处理完以后,得到的是非常清晰的书页,但是仍然不是我们所需的单色tiff,现在就需要ComicEnhancerPro上场了。因为ComicEnhancerPro可以批处理,要识别的书页一般比较多,这样就很快。其实书页亮度、对比调节也可以用ComicEnhancerPro的!只不过acdsee更适合新手!
        在ComicEnhancerPro下选择“文件/批量处理”,在弹出的设置框进行一番设置,要选择原文件和目标文件的存放位置,文件扩展名一定得是tif,色彩必须是“单色”。然后按“全部转换”就可以了。
       
   
        下面看下转换后的某书的两个效果例图。(图已压缩,原图比这个大、清晰、不会缺笔划。)
        例页1:
     
 
        例页2:
     

        大家会发现,书页中存在文字歪、扭曲的情况,会不会影响OCR的效果呢?据我的经验,不用太担心!要相信老马!呵呵。
        最后,关键角色TextForever终于要显神通了!运行TextForever,选择OCR标签,设定好TIFF所在文件夹,是否将结果存入单个文件,识别语言一般就是“简体中文”,由于自扫自拍的书页一般比较歪,文字容易扭曲,尤其是书边缘处,因此要勾上“自动旋转”和“自动拉伸”,设好就可以点“开始OCR”啦。
   

      很快,你就可以去领教一下OCR的效果啦。呵呵。
      其实,PDG的书、PDF的书也可以用TextForever结合ComicEnhancerPro进行OCR,前者要用到老马的PDG2PIC,后者要用Adobe Acrobat将PDF转为单页图像文件,大家可以尝试一下,呵呵。
      最后,怎么得到老马的这几个软件呢?帮老马宣传下,老马的主页地址是———— 
      http://www.comicer.com/stronghorse/
      两个软件的下载地址:
      http://www.comicer.com/stronghorse/software/exe/TextForever_chn.zip
      http://www.comicer.com/stronghorse/software/exe/ComicEnhancerPro_chn.zip



[ 此贴被wolfgg06在2008-05-10 21:38重新编辑 ]
本帖最近评分记录:
  • 威望:+2(capricorn_ye) 建议给新手写些你的路程 ..
  • 财富:+5(lucy12345678) 8错
  • 顶端 Posted: 2008-05-10 18:45 | [楼 主]
    wolfgg06

    该用户目前不在线
    级别: 初级认证会员
    精华: 1
    发帖: 1564
    威望: 564 点
    财富: 82 论坛币
    活期存款: 3358
    定期存款: 0
    总资产: 3440 论坛币
    在线时间:1102.5(小时)
    注册时间:2008-03-04 00:07
    最后登录:2008-11-13 16:10

    简单介绍了一下自己的经验,供新人参考,高手指点。  
    顶端 Posted: 2008-05-10 19:21 | 1 楼
    lll999888

    该用户目前在线
    级别: 普通会员
    精华: 0
    发帖: 14914
    威望: 105 点
    财富: 16 论坛币
    活期存款: 3569
    定期存款: 0
    总资产: 3585 论坛币
    在线时间:3626.7(小时)
    注册时间:2005-04-27 01:04
    最后登录:2008-11-21 15:39

    第一次听说老马有这样的软件,谢谢新贵介绍,使用一下!!
    顶端 Posted: 2008-05-10 19:30 | 2 楼
    deeping



    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 67
    威望: 0 点
    财富: 27 论坛币
    活期存款: 0
    定期存款: 0
    总资产: 27 论坛币
    在线时间:8.2(小时)
    注册时间:2007-12-02 09:01
    最后登录:2008-06-20 04:59

    楼主在快速崛起啊,不错
    顶端 Posted: 2008-05-11 16:45 | 3 楼
    linencl

    该用户目前不在线
    级别: 普通会员
    精华: 4
    发帖: 1071
    威望: 48 点
    财富: 13 论坛币
    活期存款: 101
    定期存款: 3500
    总资产: 3614 论坛币
    在线时间:1076.2(小时)
    注册时间:2004-08-27 13:22
    最后登录:2008-11-20 22:44

    俺的一点经验:

    ocr大图文字的一点经验:用老马的ComicEnhancerPro将图放大一倍并去水印,即从150dpi升到
    300dpi,然后再用汉王识别就可以了.基本都能识别出来.
    本帖最近评分记录:
  • 财富:+5(capricorn_ye)
  • 顶端 Posted: 2008-05-12 10:14 | 4 楼
    elibaba



    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 1140
    威望: 50 点
    财富: 35 论坛币
    活期存款: 2417
    定期存款: 7000
    总资产: 9452 论坛币
    在线时间:1699.5(小时)
    注册时间:2007-03-21 15:46
    最后登录:2008-11-21 14:09

    直接在老马的独角兽里ocr,效果不错。
    顶端 Posted: 2008-05-12 10:58 | 5 楼
    coldice171



    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 104
    威望: 7 点
    财富: 10 论坛币
    活期存款: 0
    定期存款: 0
    总资产: 10 论坛币
    在线时间:132.7(小时)
    注册时间:2006-11-22 09:25
    最后登录:2008-11-21 11:29

    感谢老马和wolfgg06,刚才按这方法用了,不错
    顶端 Posted: 2008-05-15 11:37 | 6 楼
    strnghrs

    该用户目前不在线
    级别: 群英会会员
    精华: 11
    发帖: 1627
    威望: 464 点
    财富: 280 论坛币
    活期存款: 52027
    定期存款: 200010
    总资产: 252317 论坛币
    在线时间:1407.5(小时)
    注册时间:2006-02-08 05:05
    最后登录:2008-11-21 12:59

    1、ComicEnhancer Pro本身就带图像处理功能,不一定用到ACDSEE。
    2、TextForever OCR后的段落处理比较麻烦,如果要OCR整本书,我自己都是用TiffToy合并成多页TIFF,然后用MODI发送到Word,另存为txt,这样段落基本不用重排。
    本帖最近评分记录:
  • 财富:+5(capricorn_ye) 优秀文章
  • 卡费、私教费才是健身的强大动力
    顶端 Posted: 2008-05-20 08:31 | 7 楼
    jn2nj

    该用户目前在线
    级别: 普通会员
    精华: 0
    发帖: 1785
    威望: 50 点
    财富: 12 论坛币
    活期存款: 470
    定期存款: 0
    总资产: 482 论坛币
    在线时间:1802.4(小时)
    注册时间:2008-05-01 08:19
    最后登录:2008-11-21 16:35

    系统里面的offic没带MODI 怎么办?
    顶端 Posted: 2008-05-20 19:04 | 8 楼
    wolfgg06

    该用户目前不在线
    级别: 初级认证会员
    精华: 1
    发帖: 1564
    威望: 564 点
    财富: 82 论坛币
    活期存款: 3358
    定期存款: 0
    总资产: 3440 论坛币
    在线时间:1102.5(小时)
    注册时间:2008-03-04 00:07
    最后登录:2008-11-13 16:10

    谢谢老马!第一点我也提到了,呵呵。
    第二点确实是好经验,这就试一下。
    Quote:
    引用第7楼strnghrs于2008-05-20 08:31发表的  :
    1、ComicEnhancer Pro本身就带图像处理功能,不一定用到ACDSEE。
    2、TextForever OCR后的段落处理比较麻烦,如果要OCR整本书,我自己都是用TiffToy合并成多页TIFF,然后用MODI发送到Word,另存为txt,这样段落基本不用重排。
    本帖最近评分记录:
  • 财富:+3(capricorn_ye) 请顺便回答一下其它会员 ..
  • 顶端 Posted: 2008-05-20 19:47 | 9 楼
    wolfgg06

    该用户目前不在线
    级别: 初级认证会员
    精华: 1
    发帖: 1564
    威望: 564 点
    财富: 82 论坛币
    活期存款: 3358
    定期存款: 0
    总资产: 3440 论坛币
    在线时间:1102.5(小时)
    注册时间:2008-03-04 00:07
    最后登录:2008-11-13 16:10

    可参考老马文章:
    http://www.comicer.com/stronghorse/water/software/officeocr.htm
    文章中对modi的安装、配置都作了详细介绍。
    中间提到下面的链接可直接下载modi模块。
    http://www.microsoft.com/downloads/details.aspx?familyid=dd172063-9517-41d8-82af-29c38f7437b6&displaylang=zh-tw

    Quote:
    引用第8楼jn2nj于2008-05-20 19:04发表的  :
    系统里面的offic没带MODI 怎么办?
    顶端 Posted: 2008-05-20 21:17 | 10 楼
    deam



    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 142
    威望: 12 点
    财富: 16 论坛币
    活期存款: 980
    定期存款: 0
    总资产: 996 论坛币
    在线时间:81.5(小时)
    注册时间:2004-10-04 23:32
    最后登录:2008-11-18 00:10

    非常有用的经验,多谢wolf和老马啦!
    顶端 Posted: 2008-06-02 02:23 | 11 楼
    yjj543000

    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 936
    威望: 20 点
    财富: 162 论坛币
    活期存款: 0
    定期存款: 0
    总资产: 162 论坛币
    在线时间:347.2(小时)
    注册时间:2006-09-12 22:35
    最后登录:2008-11-15 18:23

    太好了,最近用Google book down下了一些书,正希望能ocr出来,方便阅读。
    不过这个支持英文ocr吗?
    顶端 Posted: 2008-07-04 15:55 | 12 楼
    xtang

    该用户目前不在线
    级别: 普通会员
    精华: 2
    发帖: 1751
    威望: 101 点
    财富: 45 论坛币
    活期存款: 55
    定期存款: 150
    总资产: 250 论坛币
    在线时间:1595.3(小时)
    注册时间:2003-01-03 00:00
    最后登录:2008-11-20 03:22

    Quote:
    引用第12楼yjj543000于2008-07-04 15:55发表的  :
    太好了,最近用Google book down下了一些书,正希望能ocr出来,方便阅读。
    不过这个支持英文ocr吗?

    当然支持英文ocr (得安装e文的modi)

    英文ocr ,建议用finereader ,识别率很高,而且保持原文的格式!
    顶端 Posted: 2008-07-16 05:46 | 13 楼
    strnghrs

    该用户目前不在线
    级别: 群英会会员
    精华: 11
    发帖: 1627
    威望: 464 点
    财富: 280 论坛币
    活期存款: 52027
    定期存款: 200010
    总资产: 252317 论坛币
    在线时间:1407.5(小时)
    注册时间:2006-02-08 05:05
    最后登录:2008-11-21 12:59

    Quote:
    引用第13楼xtang于2008-07-16 05:46发表的  :

    当然支持英文ocr (得安装e文的modi)

    英文ocr ,建议用finereader ,识别率很高,而且保持原文的格式!

    英文OCR模块是所有MODI缺省自带的,想删都难


    [ 此贴被strnghrs在2008-07-16 08:54重新编辑 ]
    卡费、私教费才是健身的强大动力
    顶端 Posted: 2008-07-16 08:43 | 14 楼
    wycowboy



    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 11
    威望: 0 点
    财富: 1 论坛币
    活期存款: 0
    定期存款: 0
    总资产: 1 论坛币
    在线时间:2.2(小时)
    注册时间:2007-11-19 22:53
    最后登录:2008-11-20 20:40

    谢谢受教了!
    顶端 Posted: 2008-07-18 08:31 | 15 楼
    yfz516



    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 12
    威望: 3 点
    财富: 6 论坛币
    活期存款: 0
    定期存款: 0
    总资产: 6 论坛币
    在线时间:6.5(小时)
    注册时间:2005-11-28 22:10
    最后登录:2008-07-24 17:52

    谢谢赐教!OCR出来的如错误多,修改还是挺头痛的。
    顶端 Posted: 2008-07-19 17:15 | 16 楼
    yishui0168

    该用户目前在线
    级别: 论坛版主
    精华: 3
    发帖: 1046
    威望: 602 点
    财富: 136 论坛币
    活期存款: 20
    定期存款: 3000
    总资产: 3156 论坛币
    在线时间:834.5(小时)
    注册时间:2004-03-02 08:00
    最后登录:2008-11-21 15:28

    介绍的很不错,操作性很强!
    顶端 Posted: 2008-07-24 16:07 | 17 楼
    gucci218



    该用户目前在线
    级别: 普通会员
    精华: 0
    发帖: 569
    威望: 13 点
    财富: 7 论坛币
    活期存款: 312
    定期存款: 0
    总资产: 319 论坛币
    在线时间:1240.3(小时)
    注册时间:2008-01-06 17:29
    最后登录:2008-11-21 14:30

    modi识别到一半时出错,是什么原因呢?已经转成单色tiff。
    顶端 Posted: 2008-07-30 08:20 | 18 楼
    gaoyigg



    该用户目前不在线
    级别: 普通会员
    精华: 0
    发帖: 5
    威望: 0 点
    财富: 2 论坛币
    活期存款: 0
    定期存款: 0
    总资产: 2 论坛币
    在线时间:4.1(小时)
    注册时间:2008-03-05 12:27
    最后登录:2008-08-01 09:37

    作为新人,一定要把此帖顶起来!
    顶端 Posted: 2008-07-30 17:59 | 19 楼
    « 1 2» Pages: ( 1/2 total )
    网上读书园地论坛 » 新手学园

    Total 0.086230(s) query 3, Time now is:11-21 17:11, Gzip enabled
    Powered by PHPWind v5.3 Certificate Code © 2003-07 PHPWind.com Corporation

    清除cookies