用户工具

站点工具


问答语料小组2024年度工作总结

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
问答语料小组2024年度工作总结 [2025/03/14 16:30] – 创建 MNBVC项目组问答语料小组2024年度工作总结 [2025/03/14 16:32] (当前版本) MNBVC项目组
行 34: 行 34:
 ====== 项目成员情况 ====== ====== 项目成员情况 ======
  
-图北 word试卷清洗 曾经的组长,进度停止。初步实现试卷分割对齐,当前任务难度较大数据质量难以达到收录要求 https://github.com/fzp0515/docx2json +  * 图北 word试卷清洗 曾经的组长,进度停止。初步实现试卷分割对齐,当前任务难度较大数据质量难以达到收录要求 https://github.com/fzp0515/docx2json 
-阿伟 quora分布式爬虫 编写quora爬虫脚本,持续运行脚本产出数据 合计1300万条数据 https://github.com/LxYxvv/quora_distributed_crawler +  阿伟 quora分布式爬虫 编写quora爬虫脚本,持续运行脚本产出数据 合计1300万条数据 https://github.com/LxYxvv/quora_distributed_crawler 
-林 indiabix的数据下载和整理 采集6.3k完整的问答对 https://huggingface.co/datasets/tubeiFu/indiabix2024?row=0 +  林 indiabix的数据下载和整理 采集6.3k完整的问答对 https://huggingface.co/datasets/tubeiFu/indiabix2024?row=0 
-莫慢待 homestudy数据爬取脚本 homestudy的下载和整理 https://github.com/Leozw12/quora_distributed_crawler +  莫慢待 homestudy数据爬取脚本 homestudy的下载和整理 https://github.com/Leozw12/quora_distributed_crawler 
-Roger moss数据的整理 主要对开源的MOSS SFT数据进行整理 ,转换成mnbvc多轮对话格式 。 整理后 MOSS-SFT数据(976w条,21.83G) https://github.com/luojie1024/MossQA-mnbvc +  Roger moss数据的整理 主要对开源的MOSS SFT数据进行整理 ,转换成mnbvc多轮对话格式 。 整理后 MOSS-SFT数据(976w条,21.83G) https://github.com/luojie1024/MossQA-mnbvc https://onedrive.live.com/?id=8115CF47D1B4EEE3!2260&resid=8115CF47D1B4EEE3!2260&ithint=folder&redeem=aHR0cHM6Ly8xZHJ2Lm1zL2YvcyFBdVB1dE5GSHp4V0JrVlE0QURtVC0xR1JsVzZjP2U9R3NMek1V&migratedtospo=true&cid=8115cf47d1b4eee3 
-https://onedrive.live.com/?id=8115CF47D1B4EEE3!2260&resid=8115CF47D1B4EEE3!2260&ithint=folder&redeem=aHR0cHM6Ly8xZHJ2Lm1zL2YvcyFBdVB1dE5GSHp4V0JrVlE0QURtVC0xR1JsVzZjP2U9R3NMek1V&migratedtospo=true&cid=8115cf47d1b4eee3 +  小果冻 GRE数学题的整理
-小果冻 GRE数学题的整理+
 RE数学题的相关数据进行整理,然后转换为问答格式 640条 https://github.com/mimi-ami/GRE_math_mnbvc RE数学题的相关数据进行整理,然后转换为问答格式 640条 https://github.com/mimi-ami/GRE_math_mnbvc
问答语料小组2024年度工作总结.1741941043.txt.gz · 最后更改: 2025/03/14 16:30 由 MNBVC项目组