这种广义的“双层PDF”,底层是扫描图像层,上层是从扫描图像OCR出来的文字层,只不过文字设置为透明(在Foxit PDF Editor的“文本属性”页中,“文本模式”为“没有填充和空心的文本(不可见)”,正常文字应为“填充文本”或其他)。这样通过PDF浏览器阅读的时候,看到的是底层原汁原味的扫描图像,各种公式、图表都和纸上看到的一样,但是“搜索”或用文字选取工具选取时,又可以直接对上层文字进行操作。因此这种PDF能够较好地避免纯扫描版不能检索,纯文字版排公式、表格困难的问题;同时兼有扫描版保持原文版式,纯文字版可以检索、复制/粘贴的优点。Adobe Acrobat 8就把能制作、转换这种双层PDF作为一大卖点加以介绍,虽然它的中文OCR引擎实在不怎么样。
这种双层PDF为了保证用文字选取工具选择文字时能够准确定位,通常要求严格实现“字压图”,即上层透明文字,要与底层图像上对应文字的大小、位置完全一样(当然真正完全一样是不可能的,只能尽量对准)。而版面上文字的间距、大小、字体可能变化多端,所以在生成PDF的时候,通常对每个字的位置进行单独描述,这就导致生成的结果基本上不可再校对、编辑。不信可以用Foxit PDF Editor打开一个生成好的双层PDF,用鼠标一个一个点过去,看是不是一次只能选一个中文字或一个字母、数字?对于这样的东西,我想就算是《大话西游》里的唐僧转世,校对上几页也会疯掉。
当然如果非校对不可,也不是没有办法,而且办法还不止一种。
如果错误不多,可以采用下面的方法:
1、用Acrobat或其他工具,将PDF中的文字信息全部导出成文本文件。
2、用Foxit PDF Editor打开PDF。
3、在文本文件中看到错别字时,在Foxit PDF Editor里选中对应的字进行修改。
4、改后别忘了存盘。
如果看了文本后感觉错误很多,则可以用下面的方法:
1、用Foxit PDF Editor打开PDF,进入需要修改的页面。
2、先按Ctrl+A选择全部对象,然后按住Ctrl键,在页面空白处点一下鼠标左键,将背景图排除在选择之外,以确保选中的都是文字对象。
3、在“文本属性”页中,将“文本模式”从“没有填充和空心的文本(不可见)”改成“填充文本”,然后点“更改”。
4、现在看到文字显示出来了吧?不过缺省文字颜色一般是黑色,看起来费劲,可以保持文字选中状态,进入“填充颜色”页,改变颜色、透明度,然后点“更改”,将文字压缩和背景颜色区别开。
5、现在就可以一个字、一个字地选中、修改了。改完后再按照步骤2选中全部文字,按照步骤3将“文本模式”改回“没有填充和空心的文本(不可见)”,存盘即可。
·The background layer is used for encoding the pictures and the paper texture.
·The foreground layer is used for encoding the text and the drawings.
·The main component of the foreground layer is a bi-level image named the foreground mask. The pixel size of the foreground mask is equal to the size of the DjVu image. It contains a black-on-white representation of the text and the drawings.