问答语料小组2024年度工作总结
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
问答语料小组2024年度工作总结 [2025/03/14 16:30] – 创建 MNBVC项目组 | 问答语料小组2024年度工作总结 [2025/03/14 16:32] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 34: | 行 34: | ||
====== 项目成员情况 ====== | ====== 项目成员情况 ====== | ||
- | 图北 word试卷清洗 曾经的组长,进度停止。初步实现试卷分割对齐,当前任务难度较大数据质量难以达到收录要求 https:// | + | * 图北 word试卷清洗 曾经的组长,进度停止。初步实现试卷分割对齐,当前任务难度较大数据质量难以达到收录要求 https:// |
- | 阿伟 quora分布式爬虫 编写quora爬虫脚本,持续运行脚本产出数据 合计1300万条数据 https:// | + | |
- | 林 indiabix的数据下载和整理 采集6.3k完整的问答对 https:// | + | |
- | 莫慢待 homestudy数据爬取脚本 homestudy的下载和整理 https:// | + | |
- | Roger moss数据的整理 主要对开源的MOSS SFT数据进行整理 ,转换成mnbvc多轮对话格式 。 整理后 MOSS-SFT数据(976w条,21.83G) https:// | + | |
- | https:// | + | |
- | 小果冻 GRE数学题的整理 | + | |
RE数学题的相关数据进行整理,然后转换为问答格式 640条 https:// | RE数学题的相关数据进行整理,然后转换为问答格式 640条 https:// |
问答语料小组2024年度工作总结.1741941043.txt.gz · 最后更改: 2025/03/14 16:30 由 MNBVC项目组