===== 数据标准化小组目标 ===== 将各个开源数据集对齐到MNBVC数据集格式,方便算法同学直接使用。 ===== 小组任务 ===== - 本项目主要目的是将huggingface上的ShareGPT问答语料,标准化为MNBVC的问答语料格式,标准化格式和详细说明请参见:[[sharegptqa|sharegpt数据清洗到问答语料格式]] - 本项目主要目的是将收集到的诗歌,标准化为MNBVC的标准文本格式,标准化格式和详细说明请参见:[[text_poem|诗歌数据清洗到文本语料格式]] ===== 小组成果 ===== - shareGPT问答预料:https://github.com/pany8125/ShareGPTQAExtractor-mnbvc - 诗歌语料:https://github.com/pany8125/PoemExtractor-mnbvc - 电信语料:https://github.com/pany8125/Telechat-mnbvc - TigerBot语料:https://github.com/pany8125/TigerBot-mnbvc ===== 其他 ===== * [[现有语料格式]]