目录

活动内容

每一滴水都是必要的,我们聚集在一起才是大海。

为什么开源社区也有号称爬了github的数据集,但是mnbvc也必须做这个事:之前爬github的都是老外干的,处理数据时完全没考虑中文,没考虑过gbk之类的编码转换。导致现在基于这些开源github代码语料训练的各大中文模型普遍偏笨,也就是个聊天机器人。

我们要把github的库爬光,用于MNBVC语料集的发展,让MNBVC更智慧、更有逻辑!

本次行动的特点是:操作相对简单,但需要大量人手。

打开一个软件,执行挂机下载任务即可。

参与要求

1、电脑:有电脑可以长期开机 硬盘空间大于100GB即可 中途关机、重启都没问题,但整体任务估计要占用电脑1周——1个月不等。 挂机下载绝对不影响电脑正常使用,占用资源极少,主要是下载github数据。 WIN、MAC、LINUX系统均可。 下载无需具备翻墙能力,傻瓜工具点击即可。

2、网络:联通、电信、移动均可,任务结束后能够上传阿里云盘20GB-100GB的内容 阿里云盘为免费盘,无需买会员。

前置任务:小河流水

因【汪洋大海】活动参与人数较多,时间周期较长,为避免翻车,收集潜在问题,特策划前期小规模测试活动,暂定名为【小河流水】。

现有奋不顾身之十三勇士,为MNBVC之兴废挺身而出,担当前期测试之重任,其意气可谓壮哉!

现将十三勇士之名勒石铭记,以诏后人,我大里屋浩气长存!!!

@geese1028 @luckygao01 @风笛 @YU-NO @是胡不是货 @AlfredLI @李有钱 @minkezick @nightmare @米达麦亚 @flyingghost @Kyox @vceric

2023年11月7日,【小河流水】前置任务正式开始。 2024年2月7日,因代码错误,所有任务需要重跑

操作说明

任务数据包的获取

  1. 要下载的仓库列表链接:
  2. 虚拟机模块均内置了任务数据包,使用虚拟机模块的无需再下载下面的任务数据包跟工具.
  3. 下载工具及脚本下载链接:

虚拟机模块1

推荐给windows系统但是又配置不来环境的傻瓜下载方法,不需要担心会被杀毒软件拦截脚本.非常稳定.

kajisan提供

使用方法

  1. 使用verysync来下载所需的虚拟机环境www.verysync.com
  2. 下载码:B4KAQUO66A73LCMKX2YXVSPD2TXEUKLFDZVX4EJHRQZ3KO3GHHSLLQ
  3. 安装vitrulbox
  4. 运行fixmopoo.bat来部署
  5. 登陆虚拟机,用./task.sh id来执行你的任务序列号,详见readme.txt跟教学视频文件.

虚拟机模块2

全图形化界面的虚拟机模块2

YUNO提供,表示非常简单

使用方法

  1. 首先下载虚拟机文件
  2. 相关问题群里问YUNO

名词解释

数字目录:每个压缩包都以数字命名,如1.zip、56.zip、128.zip,解压后为一个同名的文件夹,以下称为数字目录。 脚本:即执行程序,包括win、mac、mac(m1芯片)、linux四个版本。

操作指南

大家根据给自己分配的数字,下载目录里相应的压缩文件。

1、找个在剩余空间较大的盘。

2、解压数字编号的数据包文件,生成数字目录,内含“repos_list.txt”文件。

3、脚本和相关文件放到数据包目录下,和repos_list.txt在一起。

4、执行方法

   4.1、windows: 双击运行“run.exe”即可开始运行。
   4.2、macOS: 命令行输入 `sudo ./run`,点击回车即可(需要输入电脑密码)。
   4.3、linux:
       4.3.1、安装依赖`pip install -r requirements.txt`;
       4.3.2、运行脚本`python3 run.py`;

5、任务运行:程序会在数字目录下创建output文件夹,并在其中创建zips文件夹和jsonl文件夹,之后开始工作(不用管)。任务运行时间较长,可能从1周到几周不等。

6、任务结束提示(如图所示,如果“本次新增”为0,即为顺利结束)如下图所示

7、任务结束后的处理:将数字目录压缩(用253874加密),生成“数字.zip”文件。

任务压缩包的提交

上传到百度网盘,将分享地址用里屋私信发给龙骑兵

多开的方法

可以多开任务,比如3个目录,每个目录下都有“repos_list.txt”文件,把执行的脚本文件分别拷贝到每个目录里,然后各自执行,就可以开三个窗口。

Linux版需用同时开启多个命令行终端的方法来运行多任务进程,目前在2CPU、4G内存的虚拟机上实测同时跑6个没有压力,并且Linux版的任务窗口实测相对Windows版不容易直接挂进程(Kyox测试,使用过物理机及虚拟机进行多次测试后确认)。Windows版用默认的run.exe容易被各种异常打断,推荐Windows用以下批处理命令脚本来运作:

Windows运行run.exe的批处理runit.cmd(xclimbing提供),放到run.exe同一个位置运行,会自动设置窗口颜色和标题,如果run.exe出错退出了(实践中发现有这种情况会出现),批处理会自动再次运行run.exe,直到运行到第99次会自动退出,当然,你也可以改次数,运行到中间也可以随时按Ctrl+C中断运行:

runit.cmd
@echo off 
setlocal enabledelayedexpansion

REM 生成随机的前景色和背景色
REM 生成8到15之间的随机数
set /a "randomForeground=%random% %% 8 + 8" 
REM 生成0到7之间的随机数
set /a "randomBackground=%random% %% 8"  

REM 将随机数转换为十六进制
set "foregroundHex=!randomForeground!"
set "backgroundHex=!randomBackground!"
if !randomForeground! == 10 set foregroundHex=A
if !randomForeground! == 11 set foregroundHex=B
if !randomForeground! == 12 set foregroundHex=C
if !randomForeground! == 13 set foregroundHex=D
if !randomForeground! == 14 set foregroundHex=E
if !randomForeground! == 15 set foregroundHex=F

REM 设置颜色
::echo !backgroundHex!!foregroundHex!
color !backgroundHex!!foregroundHex!

set "currentDir=%~dp0"
if "%currentDir:~-1%"=="\" set "currentDir=!currentDir:~0,-1!"
for %%i in ("%currentDir%") do set "parentDir=%%~ni"
title %parentDir%
::title %~dp0

set count=0
:loop
set /a "count=!count! + 1"
run.exe
echo ===============run.exe 第 !count! 次运行结束。
if !count! GEQ 99 goto :EOF
timeout 30
goto :loop

endlocal