wdyl
问答语料小组目标
关注问答语料的处理,包括一问一答,一问多答和多轮对话等。这部分语料常用于大模型的sft训练。
小组任务
- word试卷清洗(进行中,负责人:图北)
- 第一试卷网的整理 (进行中,负责人:图北&林)
- indiabix的数据下载和整理(进行中,负责人:林)
- quora分布式爬虫(进行中,负责人:[!])
- homestudy的下载和整理(已完成,负责人:莫慢待)
- moss数据的整理(已完成,负责人:Roger)
- wikihow(已完成,负责人:挖泥船)
- 外交部问答数据(已完成,负责人:curry)
homestudy
Homework.Study.com 是一个综合性的学习和作业帮助平台,上面按各学科以及小类归纳了问题,问题有唯一的标准答案。
任务步骤:
- 选取想要的学科,通过F12找到目录的url,通过遍历可以获得所有学科内问题的url
- 访问具体问题的url,可获得详情,其中问、答和扩展格式一致,按照指定的标签提取即可
indiabix
indiabix.com是印度的一个在线教育平台,专注于提供各种各样的笔试和面试准备材料。该网站提供了各种题库,包括技术面试、数学、逻辑推理、英语和一般知识等领域的题目,被广泛用于准备各种职业竞争考试和求职面试。
从该网站共采集6.3k完整的问答对,其中三分之二提供官方解析.且该网站提供带有点赞数的评论区,部分评论区中存在用户的详细解答,是较为稀缺的带有用户偏好的cot数据,因工作量原因这里仅提供评论区链接于扩展字段中.
数据集格式见截图 hg链接
quora分布式爬虫
Quora是一个知识分享平台,用户可以在上面提问、回答问题
尝试过的一些思路:
使用selenium模拟访问,滚动页面更新出所有数据,再解析html dom结构获取数据(速度不太可观)- 使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现作为备用)
- 固定某些api接口的某些参数可以访问到数据,但是由于一些反爬机制,可能有不可预估的情况出现(目前在用方案)
任务步骤:
- 根据一组常用关键词去检索,建立一份问答帖子的链接索引
- 使用已有的链接去爬取对应的问答数据
docx试卷文档拆分试题管线
旨在创造一个用来自动拆分试题类docx文档为jsonl格式的数据处理管线。
得到的数据格式如图:
数据处理管线如下:
- 使用pandoc将docx文档转换为md格式。
- 通过对试卷文本进行模式匹配以及对齐匹配,筛选出适配的文档,非适配文档分类归纳。
- 试题拆分为json格式,图片存为二进制,跟随试题。
special features:
- 支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml(Office Math Markup Language )编码
- 支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。
moss数据的整理
GRE数学题的整理
本项目主要对GRE数学题的相关数据进行整理,然后转换为问答格式。
任务步骤: 1. 爬取题库的网页获得问题与答案的数据 2. 转换为指定格式 题库网站一 已整理完 共计80条 题库网站二 在写代码中 预估数据640条
小组成果
wdyl.txt · 最后更改: 2024/09/03 14:44 由 MNBVC项目组