用户工具

站点工具


internet_archive专用页面

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
internet_archive专用页面 [2024/08/05 16:14] MNBVC项目组internet_archive专用页面 [2024/08/30 21:08] (当前版本) – [使用python操作IA] MNBVC项目组
行 60: 行 60:
   - 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出   - 新增从文件名识别域名的功能,能够识别到的域名放在download_url_domain.txt,不能识别的放在download_url_nodomain.txt,这两个文件加起来等于v1版本的输出
   - 新增按域名对warc大小分类汇总,存放在download_url_summary.txt   - 新增按域名对warc大小分类汇总,存放在download_url_summary.txt
 +
 +{{ ::6_get_warc_backup_url.zip |}} IA对于任意一个item,均有主用、备用两个URL。使用脚本3从脚本2生成下载URL时,默认只会返回下载地址1(D1),如果D1出现问题,可以尝试从备用下载地址(D2)下载,这个脚本的作用是输入任何一个下载URL,返回另外一个。
 +
 已知问题: 已知问题:
 5_warc_extract.py现在使用warcio,在处理某些版本的warc时有问题,建议更改为fastwarc(C++不支持zstd warc)或IA官方的warc工具(glang) 5_warc_extract.py现在使用warcio,在处理某些版本的warc时有问题,建议更改为fastwarc(C++不支持zstd warc)或IA官方的warc工具(glang)
 +
 ===== 其它IA命令 ===== ===== 其它IA命令 =====
 查看某个item的metadata,其中d1、d2对应该item的2个存储服务器,有时候主存储限速时,可尝试备用存储下载 查看某个item的metadata,其中d1、d2对应该item的2个存储服务器,有时候主存储限速时,可尝试备用存储下载
internet_archive专用页面.1722845649.txt.gz · 最后更改: 2024/08/05 16:14 由 MNBVC项目组