MNBVC-Wiki

本页面只读。您可以查看源文件，但不能更改它。如果您觉得这是系统错误，请联系管理员。
截止 2024 年末，MNBVC 多模态数据小组在三大领域取得了显著进展：

1. 文本类数据
- 完成格式定义、数据解析与发布
- 主要数据来源：糗事百科、Internet Archive
- 以网页类型数据为主

2. 视觉文档类数据
- 完成格式定义、数据解析与发布
- 以 PDF 类数据为主要处理对象

3. 音视频类数据
- 完成格式定义、数据解析
- 主要来源：MNBVC 每周例会记录

====== 已发布数据集： ======

- 糗事百科数据
- 剧本杀数据
- DocLayNet 数据

====== 数据规模： ======

- 文本数据：526.14M
- 图片数据：3.61M

====== 数据与任务总结 ======


1、文本类项目
- arXiv 数据。本年度主要完成了原始 tex 转换为 Markdown 图文交错数据以及从 arXiv 中提取图片、公式、表格构建的图文对数据；
- 网页图文数据。本年度完成了糗事百科图文对数据发布；
- 初步探索网页 warc 数据处理流程；

2、视觉文档类项目
- chinaXiv 数据。本年度完成了 chinaXiv PDF 数据的解析；
- 剧本杀数据。本年度完成了剧本杀数据发布
- 初步探索复杂文档数据处理流程；

3、音视频类项目
- 会议音频数据。本年度完成了音频提取解析；
- 会议视频数据。本年度完成了视频相关工具的调研；
- 初步探索视频数据处理流程

====== 组内人员及贡献 ======


===== 文本类项目成员 =====

| 成员 | 工作内容 |
| hertz | 编写xxarxiv_mnbvc的论文爬虫 |
| Murphy | 主要是做了几次论文的分享，跟大家一起讨论 MLLMs 的理解 |
| Ez | PDF 行数据识别、可视化、音频识别、切割 |
| leamon | 针对warc数据进行解析和转换，lda模型对pdf进行大体分类的正确性的实验 |
| gan | 协助进行chinaxiv论文的收集 |
| CG | 利用groid分析arxiv文本，按照论文布局排列内容；使用正则规则将公式提取（这一部分可能不会合并到主分支） |

===== 视觉文档类项目成员 =====

| 成员 | 工作内容 |
| 小鑫 | 剧本杀的处理，文字识别处理 |
| 七窝 | arxiv数据处理，实现latex到markdown的数据转换 |
| 天哥 | DocLayNet公开数据集处理、会议录音、剧本杀音频处理 |
| 猪猪侠 | 参与chinaxiv pdf解析，免费利用yolo进行版面分析(最后未能使用上) |
| 苍绮皓 | 主要负责文档类数据规划和产出。完成 mnbvc 多模态格式定义、网页数据图文对提取（模板版） |

===== 其他支持成员 =====

| 成员 | 工作内容 |
| 大光 | 项目管理和运营 |
| 学鹏 | pdf质量分类算法探究 |
| 咔 | arxiv多模态图文对 |
| 小王 | 一些基础支持，比如整理文档等 |