用户工具

站点工具


sjbzh

数据标准化小组目标

将各个开源数据集对齐到MNBVC数据集格式,方便算法同学直接使用。

小组任务

  1. 本项目主要目的是将huggingface上的ShareGPT问答语料,标准化为MNBVC的问答语料格式,标准化格式和详细说明请参见:sharegpt数据清洗到问答语料格式
  2. 本项目主要目的是将收集到的诗歌,标准化为MNBVC的标准文本格式,标准化格式和详细说明请参见:诗歌数据清洗到文本语料格式

小组成果

其他

sjbzh.txt · 最后更改: 2024/03/10 06:24 由 MNBVC项目组