目录
数据标准化小组目标
小组任务
小组成果
其他
数据标准化小组目标
将各个开源数据集对齐到MNBVC数据集格式,方便算法同学直接使用。
小组任务
本项目主要目的是将huggingface上的ShareGPT问答语料,标准化为MNBVC的问答语料格式,标准化格式和详细说明请参见:
sharegpt数据清洗到问答语料格式
本项目主要目的是将收集到的诗歌,标准化为MNBVC的标准文本格式,标准化格式和详细说明请参见:
诗歌数据清洗到文本语料格式
小组成果
shareGPT问答预料:
https://github.com/pany8125/ShareGPTQAExtractor-mnbvc
诗歌语料:
https://github.com/pany8125/PoemExtractor-mnbvc
电信语料:
https://github.com/pany8125/Telechat-mnbvc
TigerBot语料:
https://github.com/pany8125/TigerBot-mnbvc
其他
现有语料格式