wdyl
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版后一修订版两侧同时换到之后的修订记录 | ||
wdyl [2023/12/02 16:16] – [quora分布式爬虫] MNBVC项目组 | wdyl [2024/05/18 16:42] – [小组任务] MNBVC项目组 | ||
---|---|---|---|
行 5: | 行 5: | ||
* word试卷清洗(进行中,负责人:图北) | * word试卷清洗(进行中,负责人:图北) | ||
+ | * 第一试卷网的整理 (进行中,负责人:图北& | ||
+ | * homestudy的下载和整理(进行中,负责任:莫慢待) | ||
* quora分布式爬虫(进行中,负责人:[!]) | * quora分布式爬虫(进行中,负责人:[!]) | ||
- | * moss数据的整理(进行中,负责人:Roger) | + | * moss数据的整理(已完成,负责人:Roger) |
* wikihow(已完成,负责人:挖泥船) | * wikihow(已完成,负责人:挖泥船) | ||
* 外交部问答数据(已完成,负责人:curry) | * 外交部问答数据(已完成,负责人:curry) | ||
行 36: | 行 38: | ||
{{: | {{: | ||
- | 1.使用pandoc将docx文档转换为md格式。 | + | |
- | 2.通过对试卷文本进行模式匹配以及对齐匹配,筛选出适配的文档,非适配文档分类归纳。 | + | |
- | 3.试题拆分为json格式,图片存为二进制,跟随试题。 | + | - 使用pandoc将docx文档转换为md格式。 |
+ | | ||
+ | | ||
special features: | special features: | ||
- | - 支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml(Office Math Markup Language )编码 | + | |
- | - 支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。 | + | * 支持equation editor 3.0公式编码转换。将word文档里ee (equation editor 3.0)编码的公式转换为pandoc支持的微软omml(Office Math Markup Language )编码 |
+ | |||
+ | * 支持拆分带图片的试卷。图片将以二进制编码的格式跟随试题。 | ||
[[https:// | [[https:// | ||
+ | |||
+ | ====moss数据的整理==== | ||
+ | 本项目主要对开源的MOSS SFT数据进行整理 ,转换成mnbvc多轮对话格式 。 | ||
+ | |||
+ | [[https:// | ||
+ | |||
+ | [[https:// | ||
wdyl.txt · 最后更改: 2024/07/06 18:03 由 MNBVC项目组