已发布数据集：

- 糗事百科数据 - 剧本杀数据 - DocLayNet 数据

数据规模：

- 文本数据：526.14M - 图片数据：3.61M

1、文本类项目 - arXiv 数据。本年度主要完成了原始 tex 转换为 Markdown 图文交错数据以及从 arXiv 中提取图片、公式、表格构建的图文对数据； - 网页图文数据。本年度完成了糗事百科图文对数据发布； - 初步探索网页 warc 数据处理流程；

2、视觉文档类项目 - chinaXiv 数据。本年度完成了 chinaXiv PDF 数据的解析； - 剧本杀数据。本年度完成了剧本杀数据发布 - 初步探索复杂文档数据处理流程；

3、音视频类项目 - 会议音频数据。本年度完成了音频提取解析； - 会议视频数据。本年度完成了视频相关工具的调研； - 初步探索视频数据处理流程

成员	工作内容
hertz	编写xxarxiv_mnbvc的论文爬虫
Murphy	主要是做了几次论文的分享，跟大家一起讨论 MLLMs 的理解
Ez	PDF 行数据识别、可视化、音频识别、切割
leamon	针对warc数据进行解析和转换，lda模型对pdf进行大体分类的正确性的实验
gan	协助进行chinaxiv论文的收集
CG	利用groid分析arxiv文本，按照论文布局排列内容；使用正则规则将公式提取（这一部分可能不会合并到主分支）

成员	工作内容
小鑫	剧本杀的处理，文字识别处理
七窝	arxiv数据处理，实现latex到markdown的数据转换
天哥	DocLayNet公开数据集处理、会议录音、剧本杀音频处理
猪猪侠	参与chinaxiv pdf解析，免费利用yolo进行版面分析(最后未能使用上)
苍绮皓	主要负责文档类数据规划和产出。完成 mnbvc 多模态格式定义、网页数据图文对提取（模板版）