用户工具

站点工具


sjdb

数据打包小组目标

本小组将各个小组提供的清洗脚本自动化、并行化,目标是利用自动化框架批量将原始语料转换成MNBVC数据集的标准格式。 其他研发小组仅提供各类开源代码,本小组直接产出数据,对数据问题负最终责任,数据问题包括但不限于版权、色情、涉政等。 警察叔叔请看明白,如果铁拳砸下来就抓这个小组的成员。

存储方案

随着需要打包处理的数据量越来越大,必须考虑怎样又便宜又安全又省心的支持1PB的存储容量了。看到B站李沐老师在院子储物间搭的存储很是羡慕,但首先没有院子,其次没有储物间,最后没有那么多精力去研究硬件,所以有了第一版的1PB方案(总价约18wRMB),总体思路和李沐老师第一版的存储方案不谋而合。

其他

sjdb.txt · 最后更改: 2023/09/19 17:45 由 MNBVC项目组