用户工具

站点工具


internet_archive专用页面

这是本文档旧的修订版!


Internet Archive(https://archive.org/)专用页面

以下简称为IA

如何使用IA官方命令行工具进行文件下载

安装ia命令行工具(pythone3以上)

这个pip包中包含了python库和命令行工具ia.exe

pip install internetarchive

使用IA命令行工具以网址关键字进行搜索和下载

以STWP网站 的wiki存档项目为例,该网站发起了一个 将数千个wiki网站存档到IA的项目,去该项目的 列表页挑一个已经归档完成的 网站

ia search "fredblue.lautre.net"

将返回搜索到的项目,例如:{“identifier”: “wiki-fredblue.lautre.net_wiki-20230506”} 使用search条件进行下载:

ia download --search "fredblue.lautre.net"

或者使用identifier进行下载

ia download wiki-fredblue.lautre.net_wiki-20230506

将在当前路径下生成一个新的identifier名字的文件夹,并开始下载

批量下载collection

ia上还有很多其它组织/个人上传的文件,可以collection的形式形成组织,这里面可能包含很多items,每个item又可以包含很多个文件。例如ChinaXIV Mirror Project,要对其中的文件进行下载,首先去ia网站搜索该collection,可以把搜索条件限制为collection,搜到之后,进入collection首页,点击 About,在此页面记录其Identifier的值(chinaxivmirror) 获取collection中全部的items,输出到itemlist.txt:

ia search collection:chinaxivmirror --parameters rows:10 --itemlist  >itemlist.txt

只获取前100000条记录(注意rows必填,否则报错):

ia search collection:chinaxivmirror --parameters rows:100000

获取到itemlist后,就可以下载:

ia download --itemlist itemlist.txt

使用python操作IA

因为是pip安装的包,可以直接在pythong中使用:

import internetarchive
search = internetarchive.search_items('collection:chinaxivmirror')
for result in search:
    print(result['identifier'])

遗留问题

- 发现IA上还有类型为 Access-restricted-item的文件,图标是一把锁,这些文件没找到下载办法 - 据说有某些文件需登陆后下载,但IA命令行没有找到登录设置。 - 有些“借阅”类型的文件(通常是电子书),可以在线阅读或下载后一定时间内可阅读,这些文件均被DRM加密,不一定能够破解。参考: dedrm

参考文档

internet_archive专用页面.1711504856.txt.gz · 最后更改: 2024/03/27 10:00 由 MNBVC项目组