MNBVC-Wiki

这是本文档旧的修订版！

活动内容

每一滴水都是必要的，我们聚集在一起才是大海。

为什么开源社区也有号称爬了github的数据集，但是mnbvc也必须做这个事：之前爬github的都是老外干的，处理数据时完全没考虑中文，没考虑过gbk之类的编码转换。导致现在基于这些开源github代码语料训练的各大中文模型普遍偏笨，也就是个聊天机器人。

我们要把github的库爬光，用于MNBVC语料集的发展，让MNBVC更智慧、更有逻辑！

本次行动的特点是：操作相对简单，但需要大量人手。

打开一个软件，执行挂机下载任务即可。

参与要求

1、电脑：有电脑可以长期开机硬盘空间大于100GB即可中途关机、重启都没问题，但整体任务估计要占用电脑1周——1个月不等。挂机下载绝对不影响电脑正常使用，占用资源极少，主要是下载github数据。 WIN、MAC、LINUX系统均可。下载无需具备翻墙能力，傻瓜工具点击即可。

2、网络：联通、电信、移动均可，任务结束后能够上传阿里云盘20GB-100GB的内容阿里云盘为免费盘，无需买会员。

前置任务：小河流水

因【汪洋大海】活动参与人数较多，时间周期较长，为避免翻车，收集潜在问题，特策划前期小规模测试活动，暂定名为【小河流水】。

现有奋不顾身之十三勇士，为MNBVC之兴废挺身而出，担当前期测试之重任，其意气可谓壮哉！

现将十三勇士之名勒石铭记，以诏后人，我大里屋浩气长存！！！

@geese1028 @luckygao01 @风笛 @YU-NO @是胡不是货 @AlfredLI @李有钱 @minkezick @nightmare @米达麦亚 @flyingghost @Kyox @vceric

2023年11月7日，【小河流水】前置任务正式开始。

操作说明

任务数据包的获取

要下载的仓库列表链接: https://pan.baidu.com/s/1iUOPE2A7ywK-ARieEwvbxw?pwd=cve6 提取码: cve6。这个链接里是需要下载的仓库列表，有0-606共607个文件夹，每个文件夹里一个要下载的github_repo列表文件:repos_list.txt。
工具脚本下载链接：https://pan.baidu.com/s/1utIA8JLUgzkTM7KJGTAfZQ?pwd=m874提取码：m874

名词解释

数字目录：每个压缩包都以数字命名，如1.zip、56.zip、128.zip，解压后为一个同名的文件夹，以下称为数字目录。脚本：即执行程序，包括win、mac、mac（m1芯片）、linux四个版本。

操作指南

大家根据给自己分配的数字，下载目录里相应的压缩文件。

1、找个在剩余空间较大的盘。

2、解压数字编号的数据包文件，生成数字目录，内含“repos_list.txt”文件。

3、脚本和相关文件放到数据包目录下，和repos_list.txt在一起。

4、执行方法

   4.1、windows: 双击运行“run.exe”即可开始运行。
   4.2、macOS: 命令行输入 `sudo ./run`，点击回车即可（需要输入电脑密码）。
   4.3、linux：
       4.3.1、安装依赖`pip install -r requirements.txt`；
       4.3.2、运行脚本`python3 run.py`；

5、任务运行：程序会在数字目录下创建output文件夹，并在其中创建zips文件夹和jsonl文件夹，之后开始工作（不用管）。任务运行时间较长，可能从1周到几周不等。

6、任务结束提示（如图所示，如果“本次新增”为0，即为顺利结束）如下图所示

7、任务结束后的处理：将数字目录压缩（用253874加密），生成“数字.zip”文件。

任务压缩包的提交

上传到百度网盘，将分享地址用里屋私信发给龙骑兵

多开的方法

可以多开任务，比如3个目录，每个目录下都有“repos_list.txt”文件，把执行的脚本文件分别拷贝到每个目录里，然后各自执行，就可以开三个窗口。