github分布式爬取
第一步:从龙骑兵
和N_G
处获取 repos_list.txt
文件和你自己系统对应的爬虫工具
;
第二步:
- windows和mac用户在剩余空间不小于100G的磁盘上新建一个文件夹,将
repos_list.txt
文件和爬虫工具一起放到里面; - linux用户将拿到的压缩包解压,并将
repos_list.txt
文件放到和run.py
脚本相同目录。
第三步:
- windows用户双击
run.exe
文件即可运行; - mac 用户在当前目录打开终端,运行
./run
。(可能会需要输入电脑密码) - linux用户需先执行
pip install -r requirements.txt
命令来安装依赖,再执行python run.py
来启动脚本。
其他:
- 下载时会在当前文件夹下生成一个
output
文件夹,里面用来保存最终要提交的内容; - 爬取过程中可以随时中断,中断后也可以通过执行第三步操作来继续爬取;
- 程序正常终止时会在最后输出
ALL DONE AT + 时间
的字样,这种情况可尝试再运行几次第三步,会重新扫描并下载之前有问题的部分; - 待观察
output
文件夹大小为 20G 左右,且不再有增长时,可视为爬虫完全结束。 - 正常结束后会出现以下文字:
提交:将整个 output
文件夹压缩成 zip
文件,并设置解压密码为 253874
,压缩完成后提交即可。
github分布式爬取.txt · 最后更改: 2023/09/18 14:26 由 龙骑兵