活动内容
每一滴水都是必要的,我们聚集在一起才是大海。
为什么开源社区也有号称爬了github的数据集,但是mnbvc也必须做这个事:之前爬github的都是老外干的,处理数据时完全没考虑中文,没考虑过gbk之类的编码转换。导致现在基于这些开源github代码语料训练的各大中文模型普遍偏笨,也就是个聊天机器人。
我们要把github的库爬光,用于MNBVC语料集的发展,让MNBVC更智慧、更有逻辑!
本次行动的特点是:操作相对简单,但需要大量人手。
打开一个软件,执行挂机下载任务即可。
参与要求
1、电脑:有电脑可以长期开机 硬盘空间大于100GB即可 中途关机、重启都没问题,但整体任务估计要占用电脑1周——1个月不等。 挂机下载绝对不影响电脑正常使用,占用资源极少,主要是下载github数据。 WIN、MAC、LINUX系统均可。 下载无需具备翻墙能力,傻瓜工具点击即可。
2、网络:联通、电信、移动均可,任务结束后能够上传阿里云盘20GB-100GB的内容 阿里云盘为免费盘,无需买会员。
前置任务:小河流水
因【汪洋大海】活动参与人数较多,时间周期较长,为避免翻车,收集潜在问题,特策划前期小规模测试活动,暂定名为【小河流水】。
现有奋不顾身之十三勇士,为MNBVC之兴废挺身而出,担当前期测试之重任,其意气可谓壮哉!
现将十三勇士之名勒石铭记,以诏后人,我大里屋浩气长存!!!
@geese1028 @luckygao01 @风笛 @YU-NO @是胡不是货 @AlfredLI @李有钱 @minkezick @nightmare @米达麦亚 @flyingghost @Kyox @vceric
2023年11月7日,【小河流水】前置任务正式开始。 2024年2月7日,因代码错误,所有任务需要重跑
操作说明
任务数据包的获取
- 要下载的仓库列表链接:
- 虚拟机模块均内置了任务数据包,使用虚拟机模块的无需再下载下面的任务数据包跟工具.
- 1.1 https://pan.baidu.com/s/1iUOPE2A7ywK-ARieEwvbxw?pwd=cve6 提取码: cve6。这个链接里是所有需要下载的仓库列表压缩文件(解压密码神六),有0-606共607个文件夹,每个文件夹里一个要下载的github_repo列表文件:repos_list.txt。
- 1.2 上面压缩文件的解压包(只下载自己的任务列表对应目录即可):https://pan.baidu.com/s/1y_5lo0mecgfjo8fkn4kFEw?pwd=c757提取码:c757
- 下载工具及脚本下载链接:
- 2.1: 百度 https://pan.baidu.com/s/1mZxDXa4I9DobC5TsmIgHlQ 提取码:5i1h
虚拟机模块1
推荐给windows系统但是又配置不来环境的傻瓜下载方法,不需要担心会被杀毒软件拦截脚本.非常稳定.
kajisan提供
使用方法
- 使用verysync来下载所需的虚拟机环境www.verysync.com
- 下载码:B4KAQUO66A73LCMKX2YXVSPD2TXEUKLFDZVX4EJHRQZ3KO3GHHSLLQ
- 安装vitrulbox
- 运行fixmopoo.bat来部署
- 登陆虚拟机,用./task.sh id来执行你的任务序列号,详见readme.txt跟教学视频文件.
虚拟机模块2
全图形化界面的虚拟机模块2
YUNO提供,表示非常简单
使用方法
- 首先下载虚拟机文件
- 相关问题群里问YUNO
名词解释
数字目录:每个压缩包都以数字命名,如1.zip、56.zip、128.zip,解压后为一个同名的文件夹,以下称为数字目录。 脚本:即执行程序,包括win、mac、mac(m1芯片)、linux四个版本。
操作指南
大家根据给自己分配的数字,下载目录里相应的压缩文件。
1、找个在剩余空间较大的盘。
2、解压数字编号的数据包文件,生成数字目录,内含“repos_list.txt”文件。
3、脚本和相关文件放到数据包目录下,和repos_list.txt在一起。
4、执行方法
4.1、windows: 双击运行“run.exe”即可开始运行。 4.2、macOS: 命令行输入 `sudo ./run`,点击回车即可(需要输入电脑密码)。 4.3、linux: 4.3.1、安装依赖`pip install -r requirements.txt`; 4.3.2、运行脚本`python3 run.py`;
5、任务运行:程序会在数字目录下创建output文件夹,并在其中创建zips文件夹和jsonl文件夹,之后开始工作(不用管)。任务运行时间较长,可能从1周到几周不等。
6、任务结束提示(如图所示,如果“本次新增”为0,即为顺利结束)如下图所示
7、任务结束后的处理:将数字目录压缩(用253874加密),生成“数字.zip”文件。
任务压缩包的提交
上传到百度网盘,将分享地址用里屋私信发给龙骑兵
多开的方法
可以多开任务,比如3个目录,每个目录下都有“repos_list.txt”文件,把执行的脚本文件分别拷贝到每个目录里,然后各自执行,就可以开三个窗口。
Linux版需用同时开启多个命令行终端的方法来运行多任务进程,目前在2CPU、4G内存的虚拟机上实测同时跑6个没有压力,并且Linux版的任务窗口实测相对Windows版不容易直接挂进程(Kyox测试,使用过物理机及虚拟机进行多次测试后确认)。Windows版用默认的run.exe容易被各种异常打断,推荐Windows用以下批处理命令脚本来运作:
Windows运行run.exe的批处理runit.cmd(xclimbing提供),放到run.exe同一个位置运行,会自动设置窗口颜色和标题,如果run.exe出错退出了(实践中发现有这种情况会出现),批处理会自动再次运行run.exe,直到运行到第99次会自动退出,当然,你也可以改次数,运行到中间也可以随时按Ctrl+C中断运行:
- runit.cmd
@echo off setlocal enabledelayedexpansion REM 生成随机的前景色和背景色 REM 生成8到15之间的随机数 set /a "randomForeground=%random% %% 8 + 8" REM 生成0到7之间的随机数 set /a "randomBackground=%random% %% 8" REM 将随机数转换为十六进制 set "foregroundHex=!randomForeground!" set "backgroundHex=!randomBackground!" if !randomForeground! == 10 set foregroundHex=A if !randomForeground! == 11 set foregroundHex=B if !randomForeground! == 12 set foregroundHex=C if !randomForeground! == 13 set foregroundHex=D if !randomForeground! == 14 set foregroundHex=E if !randomForeground! == 15 set foregroundHex=F REM 设置颜色 ::echo !backgroundHex!!foregroundHex! color !backgroundHex!!foregroundHex! set "currentDir=%~dp0" if "%currentDir:~-1%"=="\" set "currentDir=!currentDir:~0,-1!" for %%i in ("%currentDir%") do set "parentDir=%%~ni" title %parentDir% ::title %~dp0 set count=0 :loop set /a "count=!count! + 1" run.exe echo ===============run.exe 第 !count! 次运行结束。 if !count! GEQ 99 goto :EOF timeout 30 goto :loop endlocal