wdyl
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
wdyl [2023/11/18 13:40] – [quora分布式爬虫] MNBVC项目组 | wdyl [2024/09/03 14:44] (当前版本) – [GRE数学题的整理] MNBVC项目组 | ||
---|---|---|---|
行 3: | 行 3: | ||
===== 小组任务 ===== | ===== 小组任务 ===== | ||
+ | |||
+ | * word试卷清洗(进行中,负责人:图北) | ||
+ | * 第一试卷网的整理 (进行中,负责人:图北& | ||
+ | * indiabix的数据下载和整理(进行中,负责人:林) | ||
+ | * quora分布式爬虫(进行中,负责人:[!]) | ||
+ | * homestudy的下载和整理(已完成,负责人:莫慢待) | ||
+ | * moss数据的整理(已完成,负责人:Roger) | ||
+ | * wikihow(已完成,负责人:挖泥船) | ||
+ | * 外交部问答数据(已完成,负责人:curry) | ||
+ | |||
+ | |||
+ | ==== homestudy ==== | ||
+ | Homework.Study.com 是一个综合性的学习和作业帮助平台,上面按各学科以及小类归纳了问题,问题有唯一的标准答案。 | ||
+ | |||
+ | 任务步骤: | ||
+ | - 选取想要的学科,通过F12找到目录的url,通过遍历可以获得所有学科内问题的url | ||
+ | - 访问具体问题的url,可获得详情,其中问、答和扩展格式一致,按照指定的标签提取即可 | ||
+ | | ||
+ | | ||
+ | |||
+ | |||
+ | ====indiabix==== | ||
+ | indiabix.com是印度的一个在线教育平台,专注于提供各种各样的笔试和面试准备材料。该网站提供了各种题库,包括技术面试、数学、逻辑推理、英语和一般知识等领域的题目, | ||
+ | |||
+ | 从该网站共采集6.3k完整的问答对, | ||
+ | |||
+ | 数据集格式见截图 | ||
+ | [[https:// | ||
+ | {{: | ||
+ | |||
==== quora分布式爬虫 ==== | ==== quora分布式爬虫 ==== | ||
Quora是一个知识分享平台,用户可以在上面提问、回答问题 | Quora是一个知识分享平台,用户可以在上面提问、回答问题 | ||
- | 思路: | + | 尝试过的一些思路: |
* < | * < | ||
- | * 使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现备用) | + | * 使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现作为备用) |
* 固定某些api接口的某些参数可以访问到数据,但是由于一些反爬机制,可能有不可预估的情况出现(目前在用方案) | * 固定某些api接口的某些参数可以访问到数据,但是由于一些反爬机制,可能有不可预估的情况出现(目前在用方案) | ||
- | |||
- | [[https:// | ||
任务步骤: | 任务步骤: | ||
- 根据一组常用关键词去检索,建立一份问答帖子的链接索引 | - 根据一组常用关键词去检索,建立一份问答帖子的链接索引 | ||
- 使用已有的链接去爬取对应的问答数据 | - 使用已有的链接去爬取对应的问答数据 | ||
+ | |||
+ | |||
+ | [[https:// | ||
+ | |||
+ | |||
+ | ====docx试卷文档拆分试题管线==== | ||
+ | 旨在创造一个用来自动拆分试题类docx文档为jsonl格式的数据处理管线。 | ||
+ | |||
+ | 得到的数据格式如图: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | 数据处理管线如下: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | |||
+ | - 使用pandoc将docx文档转换为md格式。 | ||
+ | - 通过对试卷文本进行模式匹配以及对齐匹配,筛选出适配的文档,非适配文档分类归纳。 | ||
+ | - 试题拆分为json格式,图片存为二进制,跟随试题。 | ||
+ | |||
+ | special features: | ||
+ | |||
+ | * 支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml(Office Math Markup Language )编码 | ||
+ | |||
+ | * 支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。 | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | ====moss数据的整理==== | ||
+ | 本项目主要对开源的MOSS SFT数据进行整理 ,转换成mnbvc多轮对话格式 。 | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | ====GRE数学题的整理==== | ||
+ | 本项目主要对GRE数学题的相关数据进行整理,然后转换为问答格式。 | ||
+ | |||
+ | 任务步骤: | ||
+ | 1. 爬取题库的网页获得问题与答案的数据 | ||
+ | 2. 转换为指定格式 | ||
+ | 题库网站一 已整理完 共计80条 | ||
+ | 题库网站二 在写代码中 预估数据640条 | ||
+ | |||
+ | [[https:// | ||
+ | |||
===== 小组成果 ===== | ===== 小组成果 ===== | ||
+ | [[https:// | ||
+ |
wdyl.1700286059.txt.gz · 最后更改: 2023/11/18 13:40 由 MNBVC项目组