internet_archive专用页面
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
internet_archive专用页面 [2024/06/14 21:10] – MNBVC项目组 | internet_archive专用页面 [2024/08/30 21:08] (当前版本) – [使用python操作IA] MNBVC项目组 | ||
---|---|---|---|
行 60: | 行 60: | ||
- 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出 | - 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出 | ||
- 新增按域名对warc大小分类汇总,存放在download_url_summary.txt | - 新增按域名对warc大小分类汇总,存放在download_url_summary.txt | ||
+ | |||
+ | {{ :: | ||
+ | |||
+ | 已知问题: | ||
+ | 5_warc_extract.py现在使用warcio,在处理某些版本的warc时有问题,建议更改为fastwarc(C++不支持zstd warc)或IA官方的warc工具(glang) | ||
===== 其它IA命令 ===== | ===== 其它IA命令 ===== |
internet_archive专用页面.1718370650.txt.gz · 最后更改: 2024/06/14 21:10 由 MNBVC项目组