首页
|
信息资讯
|
资源检索
|
浏览精彩论坛
.
设为首页
收藏本站
站点导航
新手学园
检索方法
国内文献
国外文献
FTP联盟
BT资源
网络资源
计算机技术
读书软件
外语学习
网络经管
法律之窗
生命科学
教学相长
学术妙笔
读书参考
文学原创
多媒体
书园茶社
茶社转贴
强国梦
秋爽斋
淡泊草
水清木华
书园旧梦
您的位置:
首页
>>
信息资讯
>>
专业交流
>>
读书软件
>> 查看内容
给清晰版PDG无损减肥
作者: strnghrs 发布日期: 2007-1-08 查看数: 出自:
网上读书园地
清晰版虽好,不过收集多了也占地方,所以我认为讨论一下怎么给它减减肥还是很有必要的。另外收集清晰版的目的本来就是为了质量,所以一切有损的方法都不在本文讨论之列,包括缩小图像尺寸等,如果您喜欢这样的方法,建议直接去下载快速版还更方便。
讨论之前,首先要从理论上解决一个问题:清晰版能不能再被无损压缩?
我的回答是:当然能,而且压缩空间还不小,只不过技术有点复杂。
我的理由如下:
对于清晰版来说,T1、T2、T3的存储格式分别为
T1:CCITT G4
T2:JPG
T3:CCITT G4 + JPG
首先说CCITT G4,这个只要把它压缩成DjVu,至少可以砍掉20%的文件长度,而且还是无损,如果对于字母文字页采用有损DjVu还能压掉更多。
其次说JPG。T3里的JPG插图实在没有什么办法可想,但是其实大多数尺寸令人咬牙切齿的清晰版,都是T2格式的单层JPG。对T2 JPG的减肥办法,就是把它分解成T3,文字部分用DjVu,插图无损切割到最小尺寸,还是用JPG。
所以从理论上说,对清晰版无损减肥是可以做到的,不过有几个技术问题需要解决:
1、将CCITT G4转换成DjVu,并封装成PDG。这个好办,转换代码是现成的,PDG文件00H格式也没有悬念,直接把DjVu数据流写在文件头后面就可以了。
2、将T2转换成T3。这个最难,难就难在怎样将插图与文字切割开。对于搞OCR的人来说,这个是必须过的第一关,其它人可能就会过不去,至少我现在就不知道怎么过。
3、在将插图识别出来后,将插图从整页JPG中无损切割下来。这个也好办,网上有开源的,网站为
http://jpegclub.org
。
如前所述,减肥的理论和方法都已经具备了,缺的就是将插图与文字切割开的方法和代码。由于种种原因,我不能去钻研这种技术,如果有人能够无偿提供,并且愿意授权大家无偿使用,我将表示热烈的欢迎!除此之外,PDG和DjVu部分我相信我还能搞定。
当然减肥也不是没有代价的:超星浏览器打开DjVu格式的文件,会比CCITT G4的稍微慢那么一点点。
【论坛浏览】
【我来说两句】
【打印】
【大】
【中】
【小】
【关闭】
相关评论
作者: slonecn 发布日期: 2007-1-08
阻碍老马攻破的第二条不就是超星文本那种图文混和格式吗?不知道那位专搞OCR软件的能人义士能无偿提供,并且愿意授权大家无偿使用,我们将表示热烈的欢迎!
作者: strnghrs 发布日期: 2007-1-08
QUOTE:
引用第1楼
slonecn
于
2007-01-08 17:47
发表的“”
:
阻碍老马攻破的第二条不就是超星文本那种图文混和格式吗?不知道那位专搞OCR软件的能人义士能无偿提供,并且愿意授权大家无偿使用,我们将表示热烈的欢迎!
不是图文混和,是通常多层PDG那样,黑白文字层在下面,上面每个插图一幅图片。
作者: sunhuilove 发布日期: 2007-1-08
adobe acrobat 8发布了,好像有点研究的地方,希望老马有空了看看
作者: strnghrs 发布日期: 2007-1-08
楼上的几位千万不要搞错,我说的并不是要把图像识别成文字,而是用到OCR软件识别图文混排的技术,将每页一个JPG的文件,分解成T3格式的多层PDG,文字部分转换成黑白图像,插图部分尽量裁小,这样可以大幅减小最终文件长度,同时效果不变。
Acrobat 8的OCR试过了,识别准确率别说国内的几家,连微软的Office都比它强,也就是能够直接生成双层PDF,还算有点卖点。
作者: funclub 发布日期: 2007-1-08
清晰版确实有点占空间,很好的想法,期待中。。。
作者: sunhuilove 发布日期: 2007-1-08
明白老马的意思,我的意思是说,adobe的ocr可以只扣出来里面的文字识别,不理会图像,另外你说的对,adobe8的识别率确实不敢恭维
作者: coolman 发布日期: 2007-1-08
估计还是手工选择快点. 这个我做pdgmaker时曾经设想过, 不过考虑到需要此功能的人不多, 就懒得做了.
另外即使分离开了, 文字部分变为黑白的, 也不可能做到完全无损, 因为这部分多半是灰度图像.
作者: coolman 发布日期: 2007-1-08
另外,谁给个镜像文本格式书的在线阅读连接格式啊. 发现supper不支持文本pdg的虚拟阅读. 谢谢了.
作者: 千里走单骑 发布日期: 2007-1-08
老马是一流的数图专家,如果超星能用你,超星软件会有个大飞跃的。可惜不相信他们会识人才。
作者: winwun 发布日期: 2007-1-08
QUOTE:
引用第8楼
coolman
于
2007-01-08 18:48
发表的“”
:
另外,谁给个镜像文本格式书的在线阅读连接格式啊. 发现supper不支持文本pdg的虚拟阅读. 谢谢了.
没有镜象的,主站的倒有不少,例如book://ss10496975
共有评论数 32/每页显示数 10
我来说两句
请遵守国家法律和互联网法规。
您要为您所发的言论的后果负责,故请各位遵纪守法并注意语言文明。
注意:系统启用了静态/缓存功能,您的回复可能不能立即显示。
热点主题
·
【停止销售】SUPPER 3天试用销售贴,特为
·
说“层”
·
在线djvu图书书签的提取-编辑-加挂
·
为什么要用pizza pro?用BXview一样可以阅
·
超星文本下载后转为单个pdf文件后用什么软
·
ieHttpHeader软件下载!
·
专利下载利器GetIPDL
·
转帖:手工计算有试读(有封面)ss号的方法
·
高等学校中英文图书数字化国际合作计划所
·
装了超星3.91,什么超星书都看不到了?
·
编写了一个根据BookInfo.dat对文件目录进
·
不错的pdf资料管理软件Foxit Library,谁
·
超星书图片失真
·
【严正申明】本版不欢迎绕过服务商的验证
·
pizza 的这个问题
最新主题
·
在IE中阅读的超星书可以保存PDG吗
·
想知道你下载了多少pdg文件吗,自编的文件
·
已解决,谢谢各位。
·
转帖:手工计算有试读(有封面)ss号的方法
·
在flashget中哪儿可以输入自己定义的http
·
ieHttpHeader软件下载!
·
24小时打造一个破解高手-绿色版
·
专利下载利器GetIPDL
·
【停止销售】SUPPER 3天试用销售贴,特为
·
关于网通上超星主要用哪些服务器的问题!
·
请教缺页检测的方法是什么,另外bkinfo.d
·
编写了一个根据BookInfo.dat对文件目录进
·
[01-19]免费绿色精品软件更新[boysone整理]
·
[01.18]粉丝绿色精品免费软件更新[mmz8整
·
不错的pdf资料管理软件Foxit Library,谁
XML
RSS 2.0
WAP
版权所有 2005 网上读书园地
免责声明
最佳分辨率 1024 X 768
Copyright © http://www.readfree.net All rights reserved. Powered by
supstie™
鄂ICP备05004310号