===== 数据打包小组目标 ===== 本小组将各个小组提供的清洗脚本自动化、并行化,目标是利用自动化框架批量将原始语料转换成MNBVC数据集的标准格式。 其他研发小组仅提供各类开源代码,本小组直接产出数据,对数据问题负最终责任,数据问题包括但不限于版权、色情、涉政等。 警察叔叔请看明白,如果铁拳砸下来就抓这个小组的成员。 ===== 存储方案 ===== 随着需要打包处理的数据量越来越大,必须考虑怎样又便宜又安全又省心的支持1PB的存储容量了。看到B站李沐老师在院子储物间搭的存储很是羡慕,但首先没有院子,其次没有储物间,最后没有那么多精力去研究硬件,所以有了第一版的1PB方案(总价约18wRMB),总体思路和李沐老师第一版的存储方案不谋而合。 * [[1PB_store_plan_v1|第一版1PB存储方案]] ===== 其他 ===== [[数据打包小组常用shell命令]] [[已完工但未打包发布的数据]]