internet_archive专用页面
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版 | |||
internet_archive专用页面 [2024/08/05 16:14] – MNBVC项目组 | internet_archive专用页面 [2024/08/30 21:08] (当前版本) – [使用python操作IA] MNBVC项目组 | ||
---|---|---|---|
行 60: | 行 60: | ||
- 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出 | - 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出 | ||
- 新增按域名对warc大小分类汇总,存放在download_url_summary.txt | - 新增按域名对warc大小分类汇总,存放在download_url_summary.txt | ||
+ | |||
+ | {{ :: | ||
+ | |||
已知问题: | 已知问题: | ||
5_warc_extract.py现在使用warcio,在处理某些版本的warc时有问题,建议更改为fastwarc(C++不支持zstd warc)或IA官方的warc工具(glang) | 5_warc_extract.py现在使用warcio,在处理某些版本的warc时有问题,建议更改为fastwarc(C++不支持zstd warc)或IA官方的warc工具(glang) | ||
+ | |||
===== 其它IA命令 ===== | ===== 其它IA命令 ===== | ||
查看某个item的metadata,其中d1、d2对应该item的2个存储服务器,有时候主存储限速时,可尝试备用存储下载 | 查看某个item的metadata,其中d1、d2对应该item的2个存储服务器,有时候主存储限速时,可尝试备用存储下载 |
internet_archive专用页面.1722845649.txt.gz · 最后更改: 2024/08/05 16:14 由 MNBVC项目组