用户工具

站点工具


wdyl

问答语料小组目标

关注问答语料的处理,包括一问一答,一问多答和多轮对话等。这部分语料常用于大模型的sft训练。

小组任务

  • word试卷清洗(进行中,负责人:图北)
  • quora分布式爬虫(进行中,负责人:[!])
  • moss数据的整理(已完成,负责人:Roger)
  • wikihow(已完成,负责人:挖泥船)
  • 外交部问答数据(已完成,负责人:curry)

quora分布式爬虫

Quora是一个知识分享平台,用户可以在上面提问、回答问题

尝试过的一些思路:

  • 使用selenium模拟访问,滚动页面更新出所有数据,再解析html dom结构获取数据(速度不太可观)
  • 使用selenium + mimtproxy去实现一个自动化模拟访问。mimtproxy搭建本地代理拦截特定的网络请求和响应获取需要的数据(已有实现作为备用)
  • 固定某些api接口的某些参数可以访问到数据,但是由于一些反爬机制,可能有不可预估的情况出现(目前在用方案)

任务步骤:

  1. 根据一组常用关键词去检索,建立一份问答帖子的链接索引
  2. 使用已有的链接去爬取对应的问答数据

代码仓库

docx试卷文档拆分试题管线

旨在创造一个用来自动拆分试题类docx文档为jsonl格式的数据处理管线。

得到的数据格式如图:

数据处理管线如下:

  1. 使用pandoc将docx文档转换为md格式。
  2. 通过对试卷文本进行模式匹配以及对齐匹配,筛选出适配的文档,非适配文档分类归纳。
  3. 试题拆分为json格式,图片存为二进制,跟随试题。

special features:

  • 支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml(Office Math Markup Language )编码
  • 支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。

代码仓库

moss数据的整理

本项目主要对开源的MOSS SFT数据进行整理 ,转换成mnbvc多轮对话格式 。

代码仓库

整理后 MOSS-SFT数据(976w条,21.83G)

小组成果

wdyl.txt · 最后更改: 2023/12/16 16:33 由 MNBVC项目组