找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 645|回复: 26

[【书香茶座】] anna图书馆

[复制链接]
发表于 2024-2-23 10:42:54 | 显示全部楼层 |阅读模式


有没有人关注这个?意思是以后读秀的书都可以从anna下载了?不知道是哪个大神提供了300T的书给anna

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×

评分

1

查看全部评分

回复

使用道具 举报

发表于 2024-2-23 10:56:14 | 显示全部楼层
是的
他们要开发这个半成品的语料库
用于ai训练
恐怕
很可能chatgpt早就完成了这一步
遥遥领先
不是随便来的
回复

使用道具 举报

发表于 2024-2-23 11:00:25 来自手机 | 显示全部楼层
前天他们刚把书表整理出来,文件有88g,太多了以至于看不出来有没有新书,大概包含中美百万和独秀各种秒传码里的内容,至于书籍文件啥时候能放出来,就不知道了,并且他们还想做OCR

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
回复

使用道具 举报

发表于 2024-2-23 11:03:45 | 显示全部楼层
本帖最后由 zbyglls 于 2024-2-23 11:09 编辑

ocr这一步就是个问题
以超星那差强人意的扫描质量
对比
zlib现存的优质超大
英文优质书库(epub等)
就算是图片的pdf
ocr起来也要轻松
准确的多

回复

使用道具 举报

发表于 2024-2-23 11:06:15 | 显示全部楼层
zbyglls 发表于 2024-2-23 11:03
ocr这一步就是个问题
以超星那差强人意的扫描质量

超星扫描哪里不好?一般的书似乎也够了吧
回复

使用道具 举报

 楼主| 发表于 2024-2-23 11:07:29 | 显示全部楼层
鬼笔环肽 发表于 2024-2-23 11:00
前天他们刚把书表整理出来,文件有88g,太多了以至于看不出来有没有新书,大概包含中美百万和独秀各种秒传 ...

如果有2020-2023年的新书就好了
回复

使用道具 举报

发表于 2024-2-23 11:14:21 | 显示全部楼层
zbyglls 发表于 2024-2-23 11:03
ocr这一步就是个问题
以超星那差强人意的扫描质量
对比

据说基于云而不是单机的ocr,识别率很高。有人说甚至150dpi都行。没试过。
回复

使用道具 举报

发表于 2024-2-23 11:18:16 | 显示全部楼层
本帖最后由 david8866 于 2024-2-23 11:20 编辑

359T.......目前看不怎么多啊
++++++++++++++++++++++++++++++++++

独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用
annas-blog.org, 2023-11-04, English version

独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用 - Anna’s Blog (annas-blog.org)

这是一篇简短的博客文章。我们正在寻找一些公司或机构,以换取独家早期访问权限,帮助我们处理我们收购的大量图书的OCR和文本提取。

高质量的学术文本对于培训LLMs非常有用。虽然我们的收藏是中文的,但这对于培训英语LLMs仍然有用:模型似乎编码概念和知识,而不考虑源语言。

为此,需要从扫描中提取文本。安娜档案馆从中获得了什么?为其用户提供了全文搜索的书籍。

因为我们的目标与LLM开发人员的目标相一致,所以我们正在寻找合作伙伴。如果您能够进行适当的OCR和文本提取,我们愿意为您提供一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。

按照这个表述,等到个人可以访问应该至少是一年以后了。

关于安娜的档案:Anna’s Archive 是一个非盈利性的开源搜索引擎,专门用于搜索“影子图书馆”。安娜的档案备份了 zlib、scihub以及libgen的书籍资源。并提供不限次数的下载。如需访问安娜的档案,请参考:安娜的档案(annas-archive)最新地址以及使用教程。 - 易书计划 (ssdown.org)

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
关于收藏品的更多信息。 读秀是由超星数字图书馆集团创建的大量扫描图书的数据库。大多数是学术图书,扫描以使它们可以数字化提供给大学和图书馆。对于我们的英语读者,普林斯顿大学华盛顿大学有很好的概述。还有一篇关于此的优秀文章:“Digitizing Chinese Books: A Case Study of the SuperStar DuXiu Scholar Search Engine”(在Anna's Archive中查找)。
读秀的图书长期以来一直在中国互联网上被盗版。通常它们被转售商以不到一美元的价格出售。它们通常使用中国版的Google Drive进行分发,该版曾经被黑客攻击以允许更多的存储空间。一些技术细节可以在这里这里找到。
尽管这些图书已经被半公开地分发,但是批量获取它们相当困难。我们将其列为我们的TODO清单中的重要事项,并为此分配了多个月的全职工作。然而,最近一位不可思议、了不起、才华横溢的志愿者联系了我们,告诉我们他们已经完成了所有这些工作,付出了巨大的代价。他们与我们分享了整个收藏品,没有期望任何回报,除了长期保存的保证。真正了不起。他们同意通过这种方式寻求帮助来进行OCR。
这个收藏品有7,543,702个文件。这比Library Genesis的非虚构图书(约5.3百万)还要多。总文件大小约为359TB(326TiB)。
我们对其他提议和想法持开放态度。只需联系我们。请访问Anna's Archive,了解有关我们的收藏品、保护工作以及您如何提供帮助的更多信息。谢谢!
- Anna和团队


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
回复

使用道具 举报

发表于 2024-2-23 11:21:48 来自手机 | 显示全部楼层
agent124 发表于 2024-2-23 11:14
据说基于云而不是单机的ocr,识别率很高。有人说甚至150dpi都行。没试过。
...

识别率高的贵,这种大批量的不可能有预算做很精准的ocr,之前见过一个更厉害的,可以完美识别竖版古籍的,一页要好几块
回复

使用道具 举报

发表于 2024-2-23 11:24:46 | 显示全部楼层
鬼笔环肽 发表于 2024-2-23 11:21
识别率高的贵,这种大批量的不可能有预算做很精准的ocr,之前见过一个更厉害的,可以完美识别竖版古籍的 ...

那是直接加人眼比对了
回复

使用道具 举报

发表于 2024-2-23 11:32:12 | 显示全部楼层
本帖最后由 zbyglls 于 2024-2-23 11:35 编辑

https://www.textin.com/experience/text_recognize_3d1
https://ai.baidu.com/tech/ocr/general

这两个是国内领先的新一代(算法、ai、大数据)ocr代表
有时间的话你可以测试一下
从pdg里面提取一下图片
图片选择,分类如下
简体中文
繁体竖拍
繁体横排
其他古籍以及版式复杂的报刊先算了

回复

使用道具 举报

发表于 2024-2-23 11:41:51 | 显示全部楼层
zbyglls 发表于 2024-2-23 11:24
那是直接加人眼比对了

古联OCR:https://ocr.ancientbooks.cn/index







回复

使用道具 举报

发表于 2024-2-23 12:17:11 | 显示全部楼层
基本都是流出来的512w库的,没啥大用
回复

使用道具 举报

发表于 2024-2-23 12:28:12 | 显示全部楼层
鬼笔环肽 发表于 2024-2-23 11:41
古联OCR:https://ocr.ancientbooks.cn/index

这个OCR质量看起来挺高的
回复

使用道具 举报

发表于 2024-2-23 12:40:42 | 显示全部楼层
zbyglls 发表于 2024-2-23 11:32
https://www.textin.com/experience/text_recognize_3d1
https://ai.baidu.com/tech/ocr/general

试了一下第一个,用清代档案测试,效果还算可以,不能算差,也不算优秀。
回复

使用道具 举报

发表于 2024-2-23 12:50:48 | 显示全部楼层
鬼笔环肽 发表于 2024-2-23 11:41
古联OCR:https://ocr.ancientbooks.cn/index

和上面一位书友提供的ocr比较了一下
测试同一页

还是这个识别率好,毕竟是做古籍出身的
就是价格1.5页,量少也可以,量大的话,看个人经济能力吧。
有课题的适合,毕竟可以通过项目基金支付。


回复

使用道具 举报

发表于 2024-2-23 14:02:32 | 显示全部楼层
本帖最后由 zbyglls 于 2024-2-23 14:04 编辑
小可拉好 发表于 2024-2-23 12:50
和上面一位书友提供的ocr比较了一下
测试同一页

这个古联ocr
也是白给

连九十年代出品老汉王都不如


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?注册

×
回复

使用道具 举报

发表于 2024-2-23 14:38:28 | 显示全部楼层
zbyglls 发表于 2024-2-23 14:02
这个古联ocr
也是白给

我测试的文件是手写的,不是这种。


回复

使用道具 举报

发表于 2024-2-23 16:46:19 | 显示全部楼层
这个anna只是久闻其名,未见其身。
回复

使用道具 举报

发表于 2024-2-23 17:05:55 | 显示全部楼层
zbyglls 发表于 2024-2-23 14:02
这个古联ocr
也是白给

这个古联ocr基本上针对中国古籍识别,刻本,手写这种,市场上一般ocr软件都是不行。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-5-9 06:28 , Processed in 0.509227 second(s), 9 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表