用户工具

站点工具


wdyl

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
wdyl [2024/06/22 11:51] – [homestudy] MNBVC项目组wdyl [2024/09/03 14:44] (当前版本) – [GRE数学题的整理] MNBVC项目组
行 6: 行 6:
   * word试卷清洗(进行中,负责人:图北)   * word试卷清洗(进行中,负责人:图北)
   * 第一试卷网的整理 (进行中,负责人:图北&林)   * 第一试卷网的整理 (进行中,负责人:图北&林)
-  * indiabix的数据下载和整理(进行中,负责人:图北+  * indiabix的数据下载和整理(进行中,负责人:
   * quora分布式爬虫(进行中,负责人:[!])   * quora分布式爬虫(进行中,负责人:[!])
   * homestudy的下载和整理(已完成,负责人:莫慢待)   * homestudy的下载和整理(已完成,负责人:莫慢待)
行 23: 行 23:
  [[https://github.com/LxYxvv/quora_distributed_crawler|代码仓库]]  [[https://github.com/LxYxvv/quora_distributed_crawler|代码仓库]]
  
 +
 +====indiabix====
 +indiabix.com是印度的一个在线教育平台,专注于提供各种各样的笔试和面试准备材料。该网站提供了各种题库,包括技术面试、数学、逻辑推理、英语和一般知识等领域的题目,被广泛用于准备各种职业竞争考试和求职面试。
 +
 +从该网站共采集6.3k完整的问答对,其中三分之二提供官方解析.且该网站提供带有点赞数的评论区,部分评论区中存在用户的详细解答,是较为稀缺的带有用户偏好的cot数据,因工作量原因这里仅提供评论区链接于扩展字段中.
 +
 +数据集格式见截图
 +[[https://huggingface.co/datasets/tubeiFu/indiabix2024?row=0|hg链接]]
 +{{:indiaxbix.png?400|}}
  
 ==== quora分布式爬虫 ==== ==== quora分布式爬虫 ====
行 71: 行 80:
 [[https://1drv.ms/f/s!AuPutNFHzxWBkVQ4ADmT-1GRlW6c?e=GsLzMU|整理后 MOSS-SFT数据(976w条,21.83G)]] [[https://1drv.ms/f/s!AuPutNFHzxWBkVQ4ADmT-1GRlW6c?e=GsLzMU|整理后 MOSS-SFT数据(976w条,21.83G)]]
  
 +====GRE数学题的整理====
 +本项目主要对GRE数学题的相关数据进行整理,然后转换为问答格式。
 +
 +任务步骤:
 +1. 爬取题库的网页获得问题与答案的数据
 +2. 转换为指定格式
 +题库网站一 已整理完 共计80条
 +题库网站二 在写代码中 预估数据640条
 +
 +[[https://github.com/mimi-ami/GRE_math_mnbvc.git|代码仓库]]
  
 ===== 小组成果 ===== ===== 小组成果 =====
 [[https://huggingface.co/datasets/LxYxvv/quora_url_id|{{huggingface.svg?20}}]] [[https://huggingface.co/datasets/LxYxvv/quora_url_id|Quora 710W URL]] [[https://huggingface.co/datasets/LxYxvv/quora_url_id|{{huggingface.svg?20}}]] [[https://huggingface.co/datasets/LxYxvv/quora_url_id|Quora 710W URL]]
  
wdyl.1719028313.txt.gz · 最后更改: 2024/06/22 11:51 由 MNBVC项目组