sjdb
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
sjdb [2023/07/02 19:18] – 创建 MNBVC项目组 | sjdb [2024/09/23 11:52] (当前版本) – [其他] MNBVC项目组 | ||
---|---|---|---|
行 1: | 行 1: | ||
===== 数据打包小组目标 ===== | ===== 数据打包小组目标 ===== | ||
- | 本小组将各个小组提供的清洗脚本自动化、并行化,目标是利用自动化框架批量将原始语料转换成MNBVC数据集的标准格式 | + | 本小组将各个小组提供的清洗脚本自动化、并行化,目标是利用自动化框架批量将原始语料转换成MNBVC数据集的标准格式。 |
+ | 其他研发小组仅提供各类开源代码,本小组直接产出数据,对数据问题负最终责任,数据问题包括但不限于版权、色情、涉政等。 | ||
+ | 警察叔叔请看明白,如果铁拳砸下来就抓这个小组的成员。 | ||
- | ===== 小组任务 | + | ===== 存储方案 |
+ | 随着需要打包处理的数据量越来越大,必须考虑怎样又便宜又安全又省心的支持1PB的存储容量了。看到B站李沐老师在院子储物间搭的存储很是羡慕,但首先没有院子,其次没有储物间,最后没有那么多精力去研究硬件,所以有了第一版的1PB方案(总价约18wRMB),总体思路和李沐老师第一版的存储方案不谋而合。 | ||
+ | * [[1PB_store_plan_v1|第一版1PB存储方案]] | ||
+ | ===== 其他 ===== | ||
+ | [[数据打包小组常用shell命令]] | ||
- | ===== 小组成果 ===== | + | [[已完工但未打包发布的数据]] |
sjdb.1688296739.txt.gz · 最后更改: 2023/07/02 19:18 由 MNBVC项目组