项目开展情况

截至2024年末，问答语料小组在多个数据源上成功开展了问答数据的爬取、整合、转换和上传系列任务。工作重点包括Quora问答数据的爬取与转换、国内外数学/物理试卷讨论论坛的数据收集、以及试卷解析和答案提取的迭代优化。

项目涵盖了Quora问答数据的爬取与上传、国内外数学/物理试卷讨论论坛的数据收集、试卷解析和答案提取的技术迭代。特别关注了试卷数据的解析和答案提取，尝试了多种模型和方法以提高准确性。

爬虫项目包括了Quora问答数据的爬取、国内外数学/物理试卷讨论论坛的数据收集、试卷解析和答案提取的共多项任务。总共处理了超过1000万条Quora问答数据，以及国内外多个数学/物理试卷讨论论坛的数据。

项目变动情况

Quora问答数据

问答语料小组在Quora问答数据的爬取上取得了显著进展。从年初的80万条数据增长至年末的1000万条数据。在数据处理上，小组尝试了多种方法，包括使用商用模型匹配问题与答案，并利用kimi chat的API进行对齐，取得了较好的效果。

国内外数学/物理试卷讨论论坛

小组积极寻找并爬取了多个国内外数学/物理试卷讨论论坛的数据，包括英文数学题目讨论论坛Art of Problem Solving、中文数学爱好者论坛、AMC竞赛等。此外，还计划收集各国竞赛数据，并与站长联系以获取更多资源。

试卷解析和答案提取

在试卷解析和答案提取方面，小组尝试了多种技术方案，包括使用商用模型、kimi chat提取答案，以及开发大模型分割试卷的方案。通过不断迭代，小组提高了试卷答案对齐的正确性，并优化了数据处理流程。

在问答语料的爬取和处理任务中，小组完成了Quora问答数据的爬取和初步处理工作，累计处理数据量达到1000万条。国内外数学/物理试卷讨论论坛的数据收集工作也取得了进展，成功爬取并整合了多个论坛的数据。试卷解析和答案提取方面，小组通过技术迭代，提高了数据处理的准确性和效率。

目前，小组还在继续进行Quora问答数据的爬取和转换工作，以及试卷数据的进一步处理和优化。同时，小组也在积极寻找新的数据源，包括其他国家的高考试卷和jupyter的数据，以丰富问答语料库的内容。

总结来说，问答语料小组在2024年取得了丰硕的成果，不仅在数据量上有了显著增长，而且在数据处理技术上也实现了突破。展望未来，小组将继续优化数据处理流程，并探索新的数据源，以进一步提升问答语料库的质量和覆盖范围。

图北 word试卷清洗曾经的组长，进度停止。初步实现试卷分割对齐，当前任务难度较大数据质量难以达到收录要求 https://github.com/fzp0515/docx2json
阿伟 quora分布式爬虫编写quora爬虫脚本，持续运行脚本产出数据合计1300万条数据 https://github.com/LxYxvv/quora_distributed_crawler
林 indiabix的数据下载和整理采集6.3k完整的问答对 https://huggingface.co/datasets/tubeiFu/indiabix2024?row=0
莫慢待 homestudy数据爬取脚本 homestudy的下载和整理 https://github.com/Leozw12/quora_distributed_crawler
Roger moss数据的整理主要对开源的MOSS SFT数据进行整理，转换成mnbvc多轮对话格式。整理后 MOSS-SFT数据(976w条，21.83G) https://github.com/luojie1024/MossQA-mnbvc https://onedrive.live.com/?id=8115CF47D1B4EEE3!2260&resid=8115CF47D1B4EEE3!2260&ithint=folder&redeem=aHR0cHM6Ly8xZHJ2Lm1zL2YvcyFBdVB1dE5GSHp4V0JrVlE0QURtVC0xR1JsVzZjP2U9R3NMek1V&migratedtospo=true&cid=8115cf47d1b4eee3
小果冻 GRE数学题的整理

RE数学题的相关数据进行整理，然后转换为问答格式 640条 https://github.com/mimi-ami/GRE_math_mnbvc