用户工具

站点工具


sjdb

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
sjdb [2023/07/02 22:32] MNBVC项目组sjdb [2024/09/23 11:52] (当前版本) – [其他] MNBVC项目组
行 1: 行 1:
 ===== 数据打包小组目标 ===== ===== 数据打包小组目标 =====
 本小组将各个小组提供的清洗脚本自动化、并行化,目标是利用自动化框架批量将原始语料转换成MNBVC数据集的标准格式。 本小组将各个小组提供的清洗脚本自动化、并行化,目标是利用自动化框架批量将原始语料转换成MNBVC数据集的标准格式。
 +其他研发小组仅提供各类开源代码,本小组直接产出数据,对数据问题负最终责任,数据问题包括但不限于版权、色情、涉政等。
 +警察叔叔请看明白,如果铁拳砸下来就抓这个小组的成员。
  
-===== 小组任务 ===== +===== 存储方案 ===== 
- +随着需要打包处理的数据量越来越大,必须考虑怎样又便宜又安全又省心的支持1PB的存储容量了。看到B站李沐老师在院子储物间搭的存储很是羡慕,但首先没有院子,其次没有储物间,最后没有那么多精力去研究硬件,所以有了第一版的1PB方案(总价约18wRMB),总体思路和李沐老师第一版的存储方案不谋而合。 
- +  * [[1PB_store_plan_v1|第一版1PB存储方案]]
-===== 小组成果 ===== +
  
 ===== 其他 ===== ===== 其他 =====
 [[数据打包小组常用shell命令]] [[数据打包小组常用shell命令]]
 +
 +[[已完工但未打包发布的数据]]
sjdb.1688308345.txt.gz · 最后更改: 2023/07/02 22:32 由 MNBVC项目组