用户工具

站点工具


github分布式爬取

第一步:从龙骑兵N_G处获取 repos_list.txt 文件和你自己系统对应的爬虫工具

第二步

  • windows和mac用户在剩余空间不小于100G的磁盘上新建一个文件夹,将 repos_list.txt 文件和爬虫工具一起放到里面;
  • linux用户将拿到的压缩包解压,并将 repos_list.txt 文件放到和 run.py 脚本相同目录。

第三步

  • windows用户双击 run.exe 文件即可运行;
  • mac 用户在当前目录打开终端,运行 ./run。(可能会需要输入电脑密码)
  • linux用户需先执行 pip install -r requirements.txt 命令来安装依赖,再执行 python run.py 来启动脚本。

其他

  • 下载时会在当前文件夹下生成一个 output 文件夹,里面用来保存最终要提交的内容;
  • 爬取过程中可以随时中断,中断后也可以通过执行第三步操作来继续爬取;
  • 程序正常终止时会在最后输出 ALL DONE AT + 时间 的字样,这种情况可尝试再运行几次第三步,会重新扫描并下载之前有问题的部分;
  • 待观察 output 文件夹大小为 20G 左右,且不再有增长时,可视为爬虫完全结束。
  • 正常结束后会出现以下文字:

提交:将整个 output 文件夹压缩成 zip 文件,并设置解压密码为 253874,压缩完成后提交即可。

github分布式爬取.txt · 最后更改: 2023/09/18 14:26 由 龙骑兵