差别

这里会显示出您选择的修订版和当前版本之间的差别。

--- wdyl [2023/11/18 13:40] – [quora分布式爬虫] MNBVC项目组
+++ wdyl [2025/06/02 15:18] (当前版本) – 外部编辑 127.0.0.1
@@ 行 3: / 行 3: @@
 ===== 小组任务 =====
+  * word试卷清洗（进行中，负责人：图北）
+  * 第一试卷网的整理 （进行中，负责人：图北&林）
+  * indiabix的数据下载和整理（进行中，负责人：林）
+  * quora分布式爬虫（进行中，负责人：[!]）
+  * homestudy的下载和整理（已完成，负责人：莫慢待）
+  * moss数据的整理（已完成，负责人：Roger）
+  * wikihow（已完成，负责人：挖泥船）
+  * 外交部问答数据（已完成，负责人：curry）
+==== homestudy ====
+Homework.Study.com 是一个综合性的学习和作业帮助平台，上面按各学科以及小类归纳了问题，问题有唯一的标准答案。
+任务步骤：
+  - 选取想要的学科，通过F12找到目录的url，通过遍历可以获得所有学科内问题的url
+  - 访问具体问题的url，可获得详情，其中问、答和扩展格式一致，按照指定的标签提取即可
+ [[https://github.com/LxYxvv/quora_distributed_crawler|代码仓库]]
+====indiabix====
+indiabix.com是印度的一个在线教育平台，专注于提供各种各样的笔试和面试准备材料。该网站提供了各种题库，包括技术面试、数学、逻辑推理、英语和一般知识等领域的题目,被广泛用于准备各种职业竞争考试和求职面试。
+从该网站共采集6.3k完整的问答对,其中三分之二提供官方解析.且该网站提供带有点赞数的评论区,部分评论区中存在用户的详细解答,是较为稀缺的带有用户偏好的cot数据,因工作量原因这里仅提供评论区链接于扩展字段中.
+数据集格式见截图
+[[https://huggingface.co/datasets/tubeiFu/indiabix2024?row=0|hg链接]]
+{{:indiaxbix.png?400|}}
 ==== quora分布式爬虫 ====
 Quora是一个知识分享平台，用户可以在上面提问、回答问题
-思路：
+尝试过的一些思路：
   * <del>使用selenium模拟访问，滚动页面更新出所有数据，再解析html dom结构获取数据(速度不太可观)</del>
-  * 使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现备用)
+  * 使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现作为备用)
   * 固定某些api接口的某些参数可以访问到数据，但是由于一些反爬机制，可能有不可预估的情况出现(目前在用方案)
-[[https://github.com/LxYxvv/quora_distributed_crawler|代码仓库]]
 任务步骤：
   - 根据一组常用关键词去检索，建立一份问答帖子的链接索引
   - 使用已有的链接去爬取对应的问答数据
+[[https://github.com/LxYxvv/quora_distributed_crawler|代码仓库]]
+====docx试卷文档拆分试题管线====
+旨在创造一个用来自动拆分试题类docx文档为jsonl格式的数据处理管线。
+得到的数据格式如图：
+{{:jsonexample.png?600|}}
+数据处理管线如下：
+{{:flowchart.png?600|}}
+  - 使用pandoc将docx文档转换为md格式。
+  - 通过对试卷文本进行模式匹配以及对齐匹配，筛选出适配的文档，非适配文档分类归纳。
+  - 试题拆分为json格式，图片存为二进制，跟随试题。
+special features：
+  * 支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml（Office Math Markup Language ）编码
+  * 支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。
+[[https://github.com/fzp0515/docx2json|代码仓库]]
+====moss数据的整理====
+本项目主要对开源的MOSS SFT数据进行整理 ，转换成mnbvc多轮对话格式 。
+[[https://github.com/luojie1024/MossQA-mnbvc|代码仓库]]
+[[https://1drv.ms/f/s!AuPutNFHzxWBkVQ4ADmT-1GRlW6c?e=GsLzMU|整理后 MOSS-SFT数据(976w条，21.83G)]]
+====GRE数学题的整理====
+本项目主要对GRE数学题的相关数据进行整理，然后转换为问答格式。
+任务步骤：
+. 爬取题库的网页获得问题与答案的数据
+. 转换为指定格式
+题库网站一 已整理完 共计80条
+题库网站二 在写代码中 预估数据640条
+[[https://github.com/mimi-ami/GRE_math_mnbvc.git|代码仓库]]
 ===== 小组成果 =====
+[[https://huggingface.co/datasets/LxYxvv/quora_url_id|{{huggingface.svg?20}}]] [[https://huggingface.co/datasets/LxYxvv/quora_url_id|Quora 710W URL]]