sjbzh
这是本文档旧的修订版!
数据标准化小组目标
将各个开源数据集对齐到MNBVC数据集格式,方便算法同学直接使用。
小组任务
- 本项目主要目的是将huggingface上的ShareGPT问答语料,标准化为MNBVC的问答语料格式,标准化格式和详细说明请参见:sharegpt数据清洗到问答语料格式
- 本项目主要目的是将收集到的诗歌,标准化为MNBVC的标准文本格式,标准化格式和详细说明请参见:诗歌数据清洗到文本语料格式(TODO:页面待建设)
小组成果
其他
sjbzh.1694913900.txt.gz · 最后更改: 2023/09/17 09:25 由 MNBVC项目组