找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 1935|回复: 3

[【推荐】] PDF电子书图像预处理【扫描图像后处理】

[复制链接]
发表于 2010-2-3 21:24:48 | 显示全部楼层 |阅读模式
原题:PDF电子书后期加工技术导论
作者:davidldq
一、PDF后期加工的技术含量不高,只是需要称手的软件。我现在比较喜欢用的软件包括:acrobat professional 9、Finereader 9.0.0.1019、Scanfix 4.2、FreePic2Pdf。这些软件都有破解版或免费版,可以通过迅雷或Google搜到。
一般制作程序如下:
1、切割页面。用Finereader 9.0.0.1019打开源文件。这个软件运行很慢,优点是自动化程度高。打开以后(通常需要半个小时以上),选择图像编辑-自动切割页面-应用到所有页面,软件开始切割页面,一分为二。有些页面不能自动切割(当包含空白页时),此时可以手动切割。
2、倾斜校正。在图像编辑窗口选择倾斜校正-应用到所有页面。当源文件有明显扭曲时,还可以使用“对齐文本行”功能,不过通常没有明显变化。
3、导出图像,建议选择TIFF-黑白-300DPI-无压缩。关闭Finereader,不必保存。
4、运行Scanfix 4.2。如果源文件页面比较干净,可以只打开“切除空白”功能,其他全关闭。选择刚才存储图像的文件夹,批量处理。
5、用FreePic2Pdf转成PDF。
6、用acrobat professional 9处理得到的PDF,统一页面。这个过程比较麻烦,一般程序:选择一个标准页面;重设页面大小,确保大于所有页面,应用到全部页面;删除本页空白边距;把本页的裁剪值应用与所有页面;依次检查各页面,必要时用高级编辑工具拖动页面内容。
7、导出图像,建议用tif-黑白-118像素(注意厘米和英寸的差别,118即300dpi),用PIC2PDF重新封装为PDF。这个过程的目的是抛弃冗余数据。
8、对于比较厚而且比较重要的书,可以添加目录。用Finereader识别目录页面,导出XLS表格,用宏命令把表格中的数据写入PDF文件。
9、在属性中添加书名、作者等信息。
10、用Acrobat Professional 9的OCR功能处理全书,设置clearscan、300DPI。(可选。如果源文件基础较好,OCR之后页面很漂亮,而且文件小了很多。)
11、添加封面和封底等彩色页面,保存。
12、向老婆炫耀一下,吃一只水果庆祝。(可选,呵呵~)

用这个程序也可以直接处理DJVU电子书。对于非常重要的经典书,也可以用Finereader进行OCR识别,输出PDF文件。Finereader的OCR比acrobat professional还强劲,缺点是需要人工校对,而且字体比较呆板。

以上方法的效率不是很高,好处的比较容易驾驭。真正的高手通常不会这样做。他们善用一些专用的小工具和PhotoShop。国学数典论坛有一个“先利其器”版面,讨论这类技术。另外可以看一些PDF论坛。不过没有必要搞这么透彻。

二、最近用Scan Kromsator做了几本书,有心得如下:图片的预处理:双页分割、去污、倾斜校正、去边、图像增强等,SK自己就可以了。它最强大的功能是illumination correction,照明校正。对于双页中间阴影明显、渗入文本部分的拍照书,SK处理尤其得心应手。缺点是,软件针对每一页的自动判断不够准确,经常需要人工调校。

三、分享几条处理电子书的心得:

1、把灰度图片转成黑白通常可以明显提高阅读效果,但前提是源文件的底子比较好。从读秀搞下来的繁体书,通常怎么折腾都是白搭;字体比较小的书(例如词典)通常也没有进一步处理的价值。一般的读秀书最好折腾一下,读起来才舒服。

2、有很多工具可以胜任灰度转黑白、同时提高分辨率的任务,除chaque兄的新宠Scan Kromsator以外,还有老马的CEP、XnView、ImageProcessor。

3、扫描文字页面最好用300DPI灰度,然后用以上任何一款软件转成黑白。

4、整理页面(对齐版心、纠偏、去污等等)最好用的工具是ImageProcessor。缺点是需要自编脚本,优点是自动化程度高。运行脚本以后,用irealer检查一下,纠正错误。

http://www.97renven.cn/forum/showthread.php?t=19353

推荐理由:CX不纠偏,只有自己来。[还有,国外都是文本,漂漂亮亮的,文件小,保存时间长(pdf图像书,一段时间不看,好像越来越不清楚)。]
回复

使用道具 举报

 楼主| 发表于 2010-2-3 21:38:52 | 显示全部楼层
图片批量分割,纠正,居中的功能
finereader 等一般的OCR软件都有。

scan tailor(http://www.readfree.net/bbs/read.php?tid=4846738)。
recogniform p_w_picpath processor( http://www.readfree.net/bbs/read.php?tid=4751178 )
蕤兒文档扫描影像处理软件http://www.readfree.net/bbs/read.php?tid=4669538
扫描图片式电子书的PS处理技术http://qkzz.net/magazine/1009-4776/2009/05/3519280.htm

使用感觉,Scankromp题名就是俄语切割,它会把页面文字区域自动框起来,切除外面,添加边框。如果选择原始图像大小(切割线),纠偏效果不理想。操作很复杂。

初步想法,pdg转来的tiff或Jpg,文档扫描影像处理软件居中+纠偏,CEP处理。或CEP处理,finereader纠偏。
回复

使用道具 举报

发表于 2010-2-3 22:21:07 | 显示全部楼层
占位学习~
回复

使用道具 举报

xiao_cao 该用户已被删除
发表于 2010-2-4 05:15:45 | 显示全部楼层
学到了~~~~·
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-5-18 16:55 , Processed in 0.280004 second(s), 7 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表