internet_archive专用页面

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

--- internet_archive专用页面 [2024/04/01 21:51] – [下载Wayback Machine网站快照] MNBVC项目组
+++ internet_archive专用页面 [2025/06/02 15:17] (当前版本) – 外部编辑 127.0.0.1
@@ 行 39: / 行 39: @@
 ===== 使用python操作IA =====
+pip install internetarchive
 因为是pip安装的包，可以直接在pythong中使用：
   import internetarchive
@@ 行 44: / 行 45: @@
   for result in search:
       print(result['identifier'])
+一些有用的python代码@n_g @等战：
+{{ ::ia_scripts.zip |}}
+该压缩包中包含：
+  - 1_get_ia_collection_items.py 将一个指定collection中所有的item名字导出
+  - 2_get_ia_items_metadata.py 获取上一步导出的所有item的元数据（json）
+  - 3_get_warc_url_from_metadata.py 从上一步的元数据中搜索warc/warc.gz文件，并获取该文件的URL（可直接导入下载工具批量多线程下载）
+  - 5_warc_extract.py 从一个warc/warc.gz文件中提取特定mime类型的数据（'application/pdf', 'text/html', 'text/plain', 'text/markdown'）
+{{ ::3_get_warc_url_from_metadata_v2.zip |}}
+step3的v2版本，bug修复：
+  - 由于数值以字符串形式存储，导致对于数值的排序不正确
+  - 输入文件名优化为脚本当前文件夹
+  - 对可下载文件的识别更准确，排除了.cdx.gz等无用的文件类型，同时新增rar、zip、7z等格式的收集。
+  - 新增从文件名识别域名的功能，能够识别到的域名放在download_url_domain.txt，不能识别的放在download_url_nodomain.txt，这两个文件加起来等于v1版本的输出
+  - 新增按域名对warc大小分类汇总，存放在download_url_summary.txt
+{{ ::6_get_warc_backup_url.zip |}} IA对于任意一个item，均有主用、备用两个URL。使用脚本3从脚本2生成下载URL时，默认只会返回下载地址1（D1），如果D1出现问题，可以尝试从备用下载地址（D2）下载，这个脚本的作用是输入任何一个下载URL，返回另外一个。
+已知问题：
+_warc_extract.py现在使用warcio，在处理某些版本的warc时有问题，建议更改为fastwarc（C++不支持zstd warc）或IA官方的warc工具（glang）
+===== 其它IA命令 =====
+查看某个item的metadata，其中d1、d2对应该item的2个存储服务器，有时候主存储限速时，可尝试备用存储下载
+  https://archive.org//metadata/{identifier}
 ===== 遗留问题 =====

internet_archive专用页面.1711979491.txt.gz · 最后更改: 2025/06/02 15:12 (外部编辑)