用户工具

站点工具


汪洋大海活动

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
汪洋大海活动 [2023/11/23 22:01] 龙骑兵汪洋大海活动 [2024/02/07 21:29] (当前版本) – [任务数据包的获取] 汪洋大海
行 1: 行 1:
 ===== 活动内容 ===== ===== 活动内容 =====
 每一滴水都是必要的,我们聚集在一起才是大海。 每一滴水都是必要的,我们聚集在一起才是大海。
 +
 为什么开源社区也有号称爬了github的数据集,但是mnbvc也必须做这个事:之前爬github的都是老外干的,处理数据时完全没考虑中文,没考虑过gbk之类的编码转换。导致现在基于这些开源github代码语料训练的各大中文模型普遍偏笨,也就是个聊天机器人。 为什么开源社区也有号称爬了github的数据集,但是mnbvc也必须做这个事:之前爬github的都是老外干的,处理数据时完全没考虑中文,没考虑过gbk之类的编码转换。导致现在基于这些开源github代码语料训练的各大中文模型普遍偏笨,也就是个聊天机器人。
 +
 我们要把github的库爬光,用于MNBVC语料集的发展,让MNBVC更智慧、更有逻辑! 我们要把github的库爬光,用于MNBVC语料集的发展,让MNBVC更智慧、更有逻辑!
 +
 本次行动的特点是:操作相对简单,但需要大量人手。 本次行动的特点是:操作相对简单,但需要大量人手。
 +
 打开一个软件,执行挂机下载任务即可。 打开一个软件,执行挂机下载任务即可。
 ==== 参与要求 ==== ==== 参与要求 ====
行 38: 行 42:
  
 2023年11月7日,【小河流水】前置任务正式开始。 2023年11月7日,【小河流水】前置任务正式开始。
 +2024年2月7日,因代码错误,所有任务需要重跑
  
 ===== 操作说明 ===== ===== 操作说明 =====
 ==== 任务数据包的获取 ==== ==== 任务数据包的获取 ====
-活动尚未正式开始+ 
 + 
 +  - 要下载的仓库列表链接:  
 +  - 虚拟机模块均内置了任务数据包,使用虚拟机模块的无需再下载下面的任务数据包跟工具. 
 +      *  1.1 [[https://pan.baidu.com/s/1iUOPE2A7ywK-ARieEwvbxw?pwd=cve6]] 提取码: cve6。这个链接里是所有需要下载的仓库列表压缩文件(解压密码神六),有0-606共607个文件夹,每个文件夹里一个要下载的github_repo列表文件:repos_list.txt。 
 +      *  1.2 上面压缩文件的解压包(只下载自己的任务列表对应目录即可):[[https://pan.baidu.com/s/1y_5lo0mecgfjo8fkn4kFEw?pwd=c757]]提取码:c757 
 +  - 下载工具及脚本下载链接: 
 +      * 2.1: 百度 [[https://pan.baidu.com/s/1mZxDXa4I9DobC5TsmIgHlQ]] 提取码:5i1h 
 +      * 2.2: https://github.com/imgingroot/github_downloader_mnbvc/releases/tag/second_release 
 +       
 +==== 虚拟机模块1 ===== 
 + 
 +推荐给windows系统但是又配置不来环境的傻瓜下载方法,不需要担心会被杀毒软件拦截脚本.非常稳定. 
 + 
 +kajisan提供 
 + 
 +=== 使用方法 === 
 + 
 +   
 +    
 +  
 +    
 +   
 +   
 +  -使用verysync来下载所需的虚拟机环境[[www.verysync.com]]  
 +  -下载码:B4KAQUO66A73LCMKX2YXVSPD2TXEUKLFDZVX4EJHRQZ3KO3GHHSLLQ 
 +  -安装vitrulbox    
 +  -运行fixmopoo.bat来部署 
 +  -登陆虚拟机,用./task.sh id来执行你的任务序列号,详见readme.txt跟教学视频文件. 
 +==== 虚拟机模块2 ===== 
 + 
 +全图形化界面的虚拟机模块2 
 + 
 +YUNO提供,表示非常简单 
 + 
 +=== 使用方法 === 
 + 
 +   
 +    
 +  
 +    
 +   
 +   
 +  -首先下载虚拟机文件 
 +  -链接:https://pan.baidu.com/s/1fLjLgdho7DnxHULLVuVyAw?pwd=exfd 
 +  -相关问题群里问YUNO 
 ==== 名词解释 ==== ==== 名词解释 ====
 数字目录:每个压缩包都以数字命名,如1.zip、56.zip、128.zip,解压后为一个同名的文件夹,以下称为数字目录。 数字目录:每个压缩包都以数字命名,如1.zip、56.zip、128.zip,解压后为一个同名的文件夹,以下称为数字目录。
行 47: 行 98:
 ==== 操作指南 ==== ==== 操作指南 ====
 大家根据给自己分配的数字,下载目录里相应的压缩文件。 大家根据给自己分配的数字,下载目录里相应的压缩文件。
 +
 1、找个在剩余空间较大的盘。 1、找个在剩余空间较大的盘。
  
行 60: 行 112:
          4.3.2、运行脚本`python3 run.py`;          4.3.2、运行脚本`python3 run.py`;
 5、任务运行:程序会在数字目录下创建output文件夹,并在其中创建zips文件夹和jsonl文件夹,之后开始工作(不用管)。任务运行时间较长,可能从1周到几周不等。 5、任务运行:程序会在数字目录下创建output文件夹,并在其中创建zips文件夹和jsonl文件夹,之后开始工作(不用管)。任务运行时间较长,可能从1周到几周不等。
 +
 +
 6、任务结束提示(如图所示,如果“本次新增”为0,即为顺利结束)如下图所示 6、任务结束提示(如图所示,如果“本次新增”为0,即为顺利结束)如下图所示
  
行 69: 行 123:
 ==== 多开的方法 ==== ==== 多开的方法 ====
 可以多开任务,比如3个目录,每个目录下都有“repos_list.txt”文件,把执行的脚本文件分别拷贝到每个目录里,然后各自执行,就可以开三个窗口。 可以多开任务,比如3个目录,每个目录下都有“repos_list.txt”文件,把执行的脚本文件分别拷贝到每个目录里,然后各自执行,就可以开三个窗口。
 +
 +Linux版需用同时开启多个命令行终端的方法来运行多任务进程,目前在2CPU、4G内存的虚拟机上实测同时跑6个没有压力,并且Linux版的任务窗口实测相对Windows版不容易直接挂进程(Kyox测试,使用过物理机及虚拟机进行多次测试后确认)。Windows版用默认的run.exe容易被各种异常打断,推荐Windows用以下批处理命令脚本来运作:
 +
 +Windows运行run.exe的批处理runit.cmd(xclimbing提供),放到run.exe同一个位置运行,会自动设置窗口颜色和标题,如果run.exe出错退出了(实践中发现有这种情况会出现),批处理会自动再次运行run.exe,直到运行到第99次会自动退出,当然,你也可以改次数,运行到中间也可以随时按Ctrl+C中断运行:
 +
 +<code - runit.cmd>
 +@echo off 
 +setlocal enabledelayedexpansion
 +
 +REM 生成随机的前景色和背景色
 +REM 生成8到15之间的随机数
 +set /a "randomForeground=%random% %% 8 + 8" 
 +REM 生成0到7之间的随机数
 +set /a "randomBackground=%random% %% 8"  
 +
 +REM 将随机数转换为十六进制
 +set "foregroundHex=!randomForeground!"
 +set "backgroundHex=!randomBackground!"
 +if !randomForeground! == 10 set foregroundHex=A
 +if !randomForeground! == 11 set foregroundHex=B
 +if !randomForeground! == 12 set foregroundHex=C
 +if !randomForeground! == 13 set foregroundHex=D
 +if !randomForeground! == 14 set foregroundHex=E
 +if !randomForeground! == 15 set foregroundHex=F
 +
 +REM 设置颜色
 +::echo !backgroundHex!!foregroundHex!
 +color !backgroundHex!!foregroundHex!
 +
 +set "currentDir=%~dp0"
 +if "%currentDir:~-1%"=="\" set "currentDir=!currentDir:~0,-1!"
 +for %%i in ("%currentDir%") do set "parentDir=%%~ni"
 +title %parentDir%
 +::title %~dp0
 +
 +set count=0
 +:loop
 +set /a "count=!count! + 1"
 +run.exe
 +echo ===============run.exe 第 !count! 次运行结束。
 +if !count! GEQ 99 goto :EOF
 +timeout 30
 +goto :loop
 +
 +endlocal
 +</code>
汪洋大海活动.1700748103.txt.gz · 最后更改: 2023/11/23 22:01 由 龙骑兵