目录

项目开展情况

截至2024年末,问答语料小组在多个数据源上成功开展了问答数据的爬取、整合、转换和上传系列任务。工作重点包括Quora问答数据的爬取与转换、国内外数学/物理试卷讨论论坛的数据收集、以及试卷解析和答案提取的迭代优化。

项目涵盖了Quora问答数据的爬取与上传、国内外数学/物理试卷讨论论坛的数据收集、试卷解析和答案提取的技术迭代。特别关注了试卷数据的解析和答案提取,尝试了多种模型和方法以提高准确性。

爬虫项目包括了Quora问答数据的爬取、国内外数学/物理试卷讨论论坛的数据收集、试卷解析和答案提取的共多项任务。总共处理了超过1000万条Quora问答数据,以及国内外多个数学/物理试卷讨论论坛的数据。

项目变动情况

Quora问答数据

问答语料小组在Quora问答数据的爬取上取得了显著进展。从年初的80万条数据增长至年末的1000万条数据。在数据处理上,小组尝试了多种方法,包括使用商用模型匹配问题与答案,并利用kimi chat的API进行对齐,取得了较好的效果。

国内外数学/物理试卷讨论论坛

小组积极寻找并爬取了多个国内外数学/物理试卷讨论论坛的数据,包括英文数学题目讨论论坛Art of Problem Solving、中文数学爱好者论坛、AMC竞赛等。此外,还计划收集各国竞赛数据,并与站长联系以获取更多资源。

试卷解析和答案提取

在试卷解析和答案提取方面,小组尝试了多种技术方案,包括使用商用模型、kimi chat提取答案,以及开发大模型分割试卷的方案。通过不断迭代,小组提高了试卷答案对齐的正确性,并优化了数据处理流程。

项目完成情况

在问答语料的爬取和处理任务中,小组完成了Quora问答数据的爬取和初步处理工作,累计处理数据量达到1000万条。国内外数学/物理试卷讨论论坛的数据收集工作也取得了进展,成功爬取并整合了多个论坛的数据。试卷解析和答案提取方面,小组通过技术迭代,提高了数据处理的准确性和效率。

目前,小组还在继续进行Quora问答数据的爬取和转换工作,以及试卷数据的进一步处理和优化。同时,小组也在积极寻找新的数据源,包括其他国家的高考试卷和jupyter的数据,以丰富问答语料库的内容。

总结来说,问答语料小组在2024年取得了丰硕的成果,不仅在数据量上有了显著增长,而且在数据处理技术上也实现了突破。展望未来,小组将继续优化数据处理流程,并探索新的数据源,以进一步提升问答语料库的质量和覆盖范围。

项目成员情况

RE数学题的相关数据进行整理,然后转换为问答格式 640条 https://github.com/mimi-ami/GRE_math_mnbvc