用户工具

站点工具


wdyl

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
后一修订版两侧同时换到之后的修订记录
wdyl [2023/12/02 16:16] – [quora分布式爬虫] MNBVC项目组wdyl [2024/06/15 16:37] – [小组任务] MNBVC项目组
行 5: 行 5:
  
   * word试卷清洗(进行中,负责人:图北)   * word试卷清洗(进行中,负责人:图北)
 +  * 第一试卷网的整理 (进行中,负责人:图北&林)
 +  * indiabix的数据下载和整理(进行中,负责人:图北)
   * quora分布式爬虫(进行中,负责人:[!])   * quora分布式爬虫(进行中,负责人:[!])
-  * moss数据的整理(进行中,负责人:Roger)+  * homestudy的下载和整理(已完成,负责人:莫慢待) 
 +  * moss数据的整理(已完成,负责人:Roger)
   * wikihow(已完成,负责人:挖泥船)   * wikihow(已完成,负责人:挖泥船)
   * 外交部问答数据(已完成,负责人:curry)   * 外交部问答数据(已完成,负责人:curry)
行 36: 行 39:
  
 {{:flowchart.png?600|}} {{:flowchart.png?600|}}
-1.使用pandoc将docx文档转换为md格式。 + 
-2.通过对试卷文本进行模式匹配以及对齐匹配,筛选出适配的文档,非适配文档分类归纳。 + 
-3.试题拆分为json格式,图片存为二进制,跟随试题。+  - 使用pandoc将docx文档转换为md格式。 
 +  通过对试卷文本进行模式匹配以及对齐匹配,筛选出适配的文档,非适配文档分类归纳。 
 +  试题拆分为json格式,图片存为二进制,跟随试题。
  
 special features: special features:
-支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml(Office Math Markup Language )编码 + 
-支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。+  * 支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml(Office Math Markup Language )编码 
 + 
 +  * 支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。
  
 [[https://github.com/fzp0515/docx2json|代码仓库]] [[https://github.com/fzp0515/docx2json|代码仓库]]
 +
 +====moss数据的整理====
 +本项目主要对开源的MOSS SFT数据进行整理 ,转换成mnbvc多轮对话格式 。
 +
 +[[https://github.com/luojie1024/MossQA-mnbvc|代码仓库]]
 +
 +[[https://1drv.ms/f/s!AuPutNFHzxWBkVQ4ADmT-1GRlW6c?e=GsLzMU|整理后 MOSS-SFT数据(976w条,21.83G)]]
  
  
wdyl.txt · 最后更改: 2024/07/06 18:03 由 MNBVC项目组