internet_archive专用页面
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
internet_archive专用页面 [2024/06/14 21:08] – MNBVC项目组 | internet_archive专用页面 [2024/08/30 21:08] (当前版本) – [使用python操作IA] MNBVC项目组 | ||
---|---|---|---|
行 46: | 行 46: | ||
print(result[' | print(result[' | ||
- | 一些有用的python代码@n_g: | + | 一些有用的python代码@n_g |
{{ :: | {{ :: | ||
该压缩包中包含: | 该压缩包中包含: | ||
行 57: | 行 57: | ||
- 由于数值以字符串形式存储,导致对于数值的排序不正确 | - 由于数值以字符串形式存储,导致对于数值的排序不正确 | ||
- 输入文件名优化为脚本当前文件夹 | - 输入文件名优化为脚本当前文件夹 | ||
- | - 对可下载文件的识别更准确,排除了.cdx.gz等无用的文件类型。 | + | - 对可下载文件的识别更准确,排除了.cdx.gz等无用的文件类型,同时新增rar、zip、7z等格式的收集。 |
- 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出 | - 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出 | ||
- 新增按域名对warc大小分类汇总,存放在download_url_summary.txt | - 新增按域名对warc大小分类汇总,存放在download_url_summary.txt | ||
+ | |||
+ | {{ :: | ||
+ | |||
+ | 已知问题: | ||
+ | 5_warc_extract.py现在使用warcio,在处理某些版本的warc时有问题,建议更改为fastwarc(C++不支持zstd warc)或IA官方的warc工具(glang) | ||
===== 其它IA命令 ===== | ===== 其它IA命令 ===== |
internet_archive专用页面.1718370516.txt.gz · 最后更改: 2024/06/14 21:08 由 MNBVC项目组