找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 859|回复: 31

我的超星地址收集笨办法

[复制链接]
发表于 2005-1-15 00:45:13 | 显示全部楼层 |阅读模式
我的超星地址收集笨办法

需要软件
1、WebSeizer 1.5.1486  此软件号称是中国最大的多线程离线浏览软件。
2、ACDsee  我用的是3.0版
3、word   我用的是2002

步骤:
1、先用WebSeizer下载超星镜像网站,具体使用方法见软件说明。(我比较笨,下载了整个网站。其实在工具——其他设置里面有“拒绝包含下列字符串的链接”,可设置无用的链接,可加下载速度。)
2、主要要用的是rcount.asp或dcount.asp文件夹中的网页文件,网站下载完成就可以删除其他目录文件。
3、用ACDSee软件把rcount.asp文件夹中的html文件改名为txt文件。
4、进入Dos界面(2K和XP为命令提示符状态),用copy *.txt yuanma.txt命令把所有文件集合成一个文件。
5、用Word打开集合好的yuanma.txt文件,用替换命令替换掉和源码无关的字符,用替换——高级——特殊字符中的段落标记,把回车符替换掉,但有个问题就是所有的字符串都并在了一起,我用book://替换为段落标记符+book://(即^pbook://)这样就基本完成了,至于如何把源码放到数据库中,还没学呢,呵呵。。。


我知道论坛的大侠们有比我更好更快的方法,我也有某位大侠给的收集地址的软件(应要求不能传播此软件,请谅解)。我介绍此方法,只是想说明,只要想办法,就能找到解决的办法的。。。。。

另外,我发现,即使收集了源码,镜像改变了封闭方式,也会失效的,比如今天石河子就不能用了。所以我收集源码的兴趣已经不大了。。。
回复

使用道具 举报

发表于 2005-1-15 12:08:51 | 显示全部楼层
方法多的很。常见下载工具就可以搞定,而且比你的速度要快的多。不过本人对这些已经完全没有兴趣了。
回复

使用道具 举报

发表于 2005-1-15 13:27:03 | 显示全部楼层
谢谢分享...辛苦了
回复

使用道具 举报

 楼主| 发表于 2005-1-15 14:44:31 | 显示全部楼层
下面是引用zhuce2003于2005-01-15 12:08发表的:
方法多的很。常见下载工具就可以搞定,而且比你的速度要快的多。不过本人对这些已经完全没有兴趣了。

我知道zhuce大侠的功夫,我也在学习中啊,呵呵。。。
回复

使用道具 举报

发表于 2005-1-15 16:31:27 | 显示全部楼层
其实完全可以做到完全自动化的对任何能够去的镜像(“能够去”有多种含义)进行收集数据和book下载地址的工作而自动出来access数据库。只有开始时候和结束时候需要一点人工干预,其它过程都不需要人工干预。有些速度快的60万的镜像10个小时以内就可以搞定。但这些我现在是懒得玩了。
回复

使用道具 举报

 楼主| 发表于 2005-1-15 16:52:02 | 显示全部楼层
下面是引用zhuce2003于2005-01-15 16:31发表的:
  其实完全可以做到完全自动化的对任何能够去的镜像(“能够去”有多种含义)进行收集数据和book下载地址的工作而自动出来access数据库。只有开始时候和结束时候需要一点人工干预,其它过程都不需要人工干预。有些速度快的60万的镜像10个小时以内就可以搞定。但这些我现在是懒得玩了。

呵呵,zhuce大侠是否也能给我掀掀门帘啊。。。。。
回复

使用道具 举报

CADme 该用户已被删除
发表于 2005-1-15 21:03:45 | 显示全部楼层
下面是引用小涛999于2005-01-15 16:52发表的:


呵呵,zhuce大侠是否也能给我掀掀门帘啊。。。。。
这个工作只需要一个人作好后贡献出来就可以了的。
回复

使用道具 举报

发表于 2005-1-15 22:05:27 | 显示全部楼层
有的(象南通,北京中医药等)用网际快车就可以了。速度也不算慢。
象有弹出口的就不知道怎么搞了。
回复

使用道具 举报

发表于 2005-1-15 22:20:47 | 显示全部楼层
不知道各位注意到一个情况没有,估计有1天半的时间宁波成教超星镜像的数据库是公开放在宁波自己的网站的文件列表里面的。我过路正好看见,就把它的access数据库和两个txt的数据库直接端下来了,时间不足15分钟,一个50万左右的镜像的数据库就那样到手。而且还下载到镜像用于处理它们图书的路径的一个软件。对大多数镜像而言,原来限制ip而突然某几天或者一段时间不限制ip的了,那么多半是这个镜像在调整升级,而镜像的人技术有限,一般就是找的超星主站的技术人员在远程维护该镜像、调试镜像、升级镜像,超星主站的人来在线调试镜像,当然镜像只好临时取消ip限制的,否则超星技术人员也无法进入镜像去调试,当然镜像可以给主站技术人员代理使用,但代理毕竟慢阿。这个时候说不定你会有意外收获。当然,一般而言,调试完毕就会限制ip了。

某些刚刚成立的镜像也会有短暂的一段时间不限制ip,也多半是为了在线调试。一旦调试正常后就开始限制ip。论坛里面经常有人为某些镜像限制ip了大呼小叫的,其实限制ip才是镜像的常态,不限制ip是镜像的“异态”。所以,完全没有必要为某些镜像原来不限制ip而某一天突然限制ip而惊讶。
回复

使用道具 举报

发表于 2005-1-15 23:25:09 | 显示全部楼层
南通下来的所有页都是首页,也就是说不可下。填上笨密码也不行。
回复

使用道具 举报

 楼主| 发表于 2005-1-15 23:33:50 | 显示全部楼层
下面是引用CADme于2005-01-15 21:03发表的:

这个工作只需要一个人作好后贡献出来就可以了的。

呵呵,这样最好了。
当然更好的是bookish大侠那样,把书也直接提供算了。大家就是帮助补充不断出现的新书就行了。。。
回复

使用道具 举报

发表于 2005-1-15 23:42:27 | 显示全部楼层
zhuce2003r的话我还一时不能领悟。一是眼力不佳,二是登门无路。
回复

使用道具 举报

发表于 2005-1-16 08:59:28 | 显示全部楼层
回7楼七兄,对于这类镜像,更笨的方法是:首先摸清路径(path)的规律,然后用一个现成的数据库去匹配,如果只是为了获得地址,可以用BE,把页数设置为1,把书名设置为它的SS号,让BE自己去搜索,有这本书,显示100%,没有就像是0%。把显示0%的那些文件夹删除,剩下的就是镜像里有的书了。用DOS的 dir > ss.txt,就可以得到镜像里有的书的SS号。我用这个办法对付台湾镜像。
9楼的问题有可能是由于cookie的关系。hotmailwang是采用编程让IE自动打开下载页的方法获取下载地址的。我嫌麻烦,没有试过,宁肯用上述笨办法。
回复

使用道具 举报

发表于 2005-1-16 12:26:58 | 显示全部楼层
zhuce你是不是认得超星镜像的网管啊,这么清楚内情。
回复

使用道具 举报

发表于 2005-1-16 12:32:59 | 显示全部楼层
to 10楼 小涛

bookish虽然提供13万书在那里,但到目前为止,只有一个人向bookish要过。说明论坛里面的人大多要找什么新书。bookish这样作是怕上传论坛ftp太浪费他的时间。说实话,我并不是找不到找书区里面那些书而是绝大部分书我都可以找到,但我从来没有上传书过,也是怕那个麻烦。

另外,镜像的数据库不能随便贡献出来的,因为它的杀伤力太大。即使要贡献也只能贡献大家所共知的镜像的数据库,例如河北。或者其它镜像的只拿出来局部数据。总之,凡是杀伤力大的(无论是数据库还是软件)都不宜公开发布。

现在镜像那么多,而且多数镜像都升级并增加书上去了,大家随便找到一个镜像也基本上能够满足需要了,也没有必要去作太多其它方面的事情。

to 12楼 bookish

你那个办法也实在是麻烦一些了。台湾镜像进去一次后在5分钟之内就可以把它的除book地址或者http地址之外的东西全部拿出来。这个东西能够拿出来,那么下面的事情bookish应该很容易搞定的。
回复

使用道具 举报

发表于 2005-1-16 12:39:35 | 显示全部楼层
下面是引用flyfox于2005-01-16 12:26发表的:
zhuce你是不是认得超星镜像的网管啊,这么清楚内情。

过奖。但你只要仔细观察一下镜像的动向就应该知道我说的那些是不会差错到哪里去了。
回复

使用道具 举报

发表于 2005-1-16 14:59:20 | 显示全部楼层
回zhuce兄,你是知道的,我不就是为了我所下载的资料是用合法手段得到的,所以从不用代理(个别试验除外)
回复

使用道具 举报

发表于 2005-1-16 15:38:28 | 显示全部楼层
回bookish兄,我就原来那个帐号有效时候进去台湾镜像一次,就那一次后再也没有进去过,也不需要再进去。用帐号进去应该是合法的吧。因为就那次进去5分钟已经拿到它除http或者book地址之外的所有东西,拿到那个后5分钟之类做成台湾镜像数据库。

好像用代理现在没有明确说是不是合法手段,好像既没有说合法也没有说不合法。不过我也基本上有接近一年时间不去要代理的地方了。主要不是怕不合法而是使用代理速度慢而且需要去设置麻烦了一些。
回复

使用道具 举报

发表于 2005-1-23 22:01:40 | 显示全部楼层
走过路过到是不能错过哦!哈哈!
URL http://61.175.133.109/db1.mdb
注释 db1.mdb
引用页 http://61.175.133.109/
续传 Yes
本地文件 C:\Downloads\software\db1.mdb
日期 12/31/04 02:02:47
大小 125669376
完成 125669376
总耗时 00:27:41
平均速度 73.88 KB/s
创建时间 12/30/04 12:10:22
完成时间 12/31/04 10:50:25
回复

使用道具 举报

发表于 2005-1-23 22:21:30 | 显示全部楼层
MDB从12月30日开始在不断膨胀,到31日约10时膨胀到125M后停止。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2026-3-30 00:01 , Processed in 0.109431 second(s), 7 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表