internet_archive专用页面
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
internet_archive专用页面 [2024/03/27 09:57] – MNBVC项目组 | internet_archive专用页面 [2024/08/30 21:08] (当前版本) – [使用python操作IA] MNBVC项目组 | ||
---|---|---|---|
行 27: | 行 27: | ||
获取到itemlist后,就可以下载: | 获取到itemlist后,就可以下载: | ||
ia download --itemlist itemlist.txt | ia download --itemlist itemlist.txt | ||
+ | |||
+ | ===== 下载Wayback Machine网站快照 ===== | ||
+ | 当一个用户通过某些IA的api,例如Save Page Now,将网站上传到IA之后,IA会有一个自动化流程定期整理所有用户上传数据,并形成一个web archive数据集(warc),这个格式和common crawl的格式相同。这个数据集包含了特定时间点之间**所有用户**通过Save Page Now上传的网页,因此在IA上对应的collection标记为Restricted,不能直接下载。 | ||
+ | |||
+ | IA对特定网站的快照查看,通过wayback machine进行(https:// | ||
+ | |||
+ | 所以,从IA下载特定网站的操作是: | ||
+ | - 获取网站url,例如“1700多个中文独立博客”(https:// | ||
+ | - 验证(可选),使用androidperformance.com关键字去wayback machine网站查看网页快照,直达链接:https:// | ||
+ | - 使用这个关键字去way back machine的cdx api生成文件列表并下载。(这一步需要咨询一下负责common crawl数据的大佬,看他 能否改一下代码测试一下) | ||
===== 使用python操作IA ===== | ===== 使用python操作IA ===== | ||
+ | pip install internetarchive | ||
因为是pip安装的包,可以直接在pythong中使用: | 因为是pip安装的包,可以直接在pythong中使用: | ||
import internetarchive | import internetarchive | ||
行 35: | 行 46: | ||
print(result[' | print(result[' | ||
- | 问题: | + | 一些有用的python代码@n_g @等战: |
- | 1、发现IA上还有类型为Access-restricted-item的文件,图标是一把锁,这些文件没找到下载办法,例如[[https:// | + | {{ :: |
- | 2、据说有某些文件需登陆后下载,但IA命令行没有找到登录设置。 | + | 该压缩包中包含: |
- | 3、有些“借阅”类型的文件(通常是电子书),可以在线阅读或下载后一定时间内可阅读,这些文件均被DRM加密,不一定能够破解。参考:[[https:// | + | - 1_get_ia_collection_items.py 将一个指定collection中所有的item名字导出 |
+ | - 2_get_ia_items_metadata.py 获取上一步导出的所有item的元数据(json) | ||
+ | - 3_get_warc_url_from_metadata.py 从上一步的元数据中搜索warc/ | ||
+ | - 5_warc_extract.py 从一个warc/ | ||
+ | {{ :: | ||
+ | step3的v2版本,bug修复: | ||
+ | | ||
+ | | ||
+ | - 对可下载文件的识别更准确,排除了.cdx.gz等无用的文件类型,同时新增rar、zip、7z等格式的收集。 | ||
+ | - 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出 | ||
+ | - 新增按域名对warc大小分类汇总,存放在download_url_summary.txt | ||
+ | |||
+ | {{ :: | ||
+ | |||
+ | 已知问题: | ||
+ | 5_warc_extract.py现在使用warcio,在处理某些版本的warc时有问题,建议更改为fastwarc(C++不支持zstd warc)或IA官方的warc工具(glang) | ||
+ | |||
+ | ===== 其它IA命令 ===== | ||
+ | 查看某个item的metadata,其中d1、d2对应该item的2个存储服务器,有时候主存储限速时,可尝试备用存储下载 | ||
+ | https:// | ||
+ | |||
+ | ===== 遗留问题 ===== | ||
+ | - 发现IA上还有类型为[[https:// | ||
+ | | ||
+ | | ||
===== 参考文档 ===== | ===== 参考文档 ===== | ||
- | [[https:// | + | [[https:// |
+ | [[https:// | ||
- | [[https:// | + | ===== IA搜索关键字记录 ===== |
+ | tianya.cn:有越60G的数据但全部都标记为不允许下载。 | ||
internet_archive专用页面.1711504646.txt.gz · 最后更改: 2024/03/27 09:57 由 MNBVC项目组