sjbzh
数据标准化小组目标
将各个开源数据集对齐到MNBVC数据集格式,方便算法同学直接使用。
小组任务
- 本项目主要目的是将huggingface上的ShareGPT问答语料,标准化为MNBVC的问答语料格式,标准化格式和详细说明请参见:sharegpt数据清洗到问答语料格式
- 本项目主要目的是将收集到的诗歌,标准化为MNBVC的标准文本格式,标准化格式和详细说明请参见:诗歌数据清洗到文本语料格式
小组成果
- TigerBot语料:https://github.com/pany8125/TigerBot-mnbvc
其他
sjbzh.txt · 最后更改: 2024/03/10 06:24 由 MNBVC项目组