这是本文档旧的修订版!
活动内容
每一滴水都是必要的,我们聚集在一起才是大海。
为什么开源社区也有号称爬了github的数据集,但是mnbvc也必须做这个事:之前爬github的都是老外干的,处理数据时完全没考虑中文,没考虑过gbk之类的编码转换。导致现在基于这些开源github代码语料训练的各大中文模型普遍偏笨,也就是个聊天机器人。
我们要把github的库爬光,用于MNBVC语料集的发展,让MNBVC更智慧、更有逻辑!
本次行动的特点是:操作相对简单,但需要大量人手。
打开一个软件,执行挂机下载任务即可。
参与要求
1、电脑:有电脑可以长期开机 硬盘空间大于100GB即可 中途关机、重启都没问题,但整体任务估计要占用电脑1周——1个月不等。 挂机下载绝对不影响电脑正常使用,占用资源极少,主要是下载github数据。 WIN、MAC、LINUX系统均可。 下载无需具备翻墙能力,傻瓜工具点击即可。
2、网络:联通、电信、移动均可,任务结束后能够上传阿里云盘20GB-100GB的内容 阿里云盘为免费盘,无需买会员。
前置任务:小河流水
因【汪洋大海】活动参与人数较多,时间周期较长,为避免翻车,收集潜在问题,特策划前期小规模测试活动,暂定名为【小河流水】。
现有奋不顾身之十三勇士,为MNBVC之兴废挺身而出,担当前期测试之重任,其意气可谓壮哉!
现将十三勇士之名勒石铭记,以诏后人,我大里屋浩气长存!!!
@geese1028 @luckygao01 @风笛 @YU-NO @是胡不是货 @AlfredLI @李有钱 @minkezick @nightmare @米达麦亚 @flyingghost @Kyox @vceric
2023年11月7日,【小河流水】前置任务正式开始。
操作说明
任务数据包的获取
- 要下载的仓库列表链接: https://pan.baidu.com/s/1iUOPE2A7ywK-ARieEwvbxw?pwd=cve6 提取码: cve6。这个链接里是需要下载的仓库列表,有0-606共607个文件夹,每个文件夹里一个要下载的github_repo列表文件:repos_list.txt。
- 工具脚本下载链接:https://pan.baidu.com/s/1utIA8JLUgzkTM7KJGTAfZQ?pwd=m874提取码:m874
名词解释
数字目录:每个压缩包都以数字命名,如1.zip、56.zip、128.zip,解压后为一个同名的文件夹,以下称为数字目录。 脚本:即执行程序,包括win、mac、mac(m1芯片)、linux四个版本。
操作指南
大家根据给自己分配的数字,下载目录里相应的压缩文件。
1、找个在剩余空间较大的盘。
2、解压数字编号的数据包文件,生成数字目录,内含“repos_list.txt”文件。
3、脚本和相关文件放到数据包目录下,和repos_list.txt在一起。
4、执行方法
4.1、windows: 双击运行“run.exe”即可开始运行。 4.2、macOS: 命令行输入 `sudo ./run`,点击回车即可(需要输入电脑密码)。 4.3、linux: 4.3.1、安装依赖`pip install -r requirements.txt`; 4.3.2、运行脚本`python3 run.py`;
5、任务运行:程序会在数字目录下创建output文件夹,并在其中创建zips文件夹和jsonl文件夹,之后开始工作(不用管)。任务运行时间较长,可能从1周到几周不等。
6、任务结束提示(如图所示,如果“本次新增”为0,即为顺利结束)如下图所示
7、任务结束后的处理:将数字目录压缩(用253874加密),生成“数字.zip”文件。
任务压缩包的提交
上传到百度网盘,将分享地址用里屋私信发给龙骑兵
多开的方法
可以多开任务,比如3个目录,每个目录下都有“repos_list.txt”文件,把执行的脚本文件分别拷贝到每个目录里,然后各自执行,就可以开三个窗口。