多模态语料小组年度总结报告
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
多模态语料小组年度总结报告 [2025/03/14 16:40] – 创建 MNBVC项目组 | 多模态语料小组年度总结报告 [2025/03/14 16:41] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 14: | 行 14: | ||
- 主要来源:MNBVC 每周例会记录 | - 主要来源:MNBVC 每周例会记录 | ||
- | 已发布数据集: | + | ====== |
- 糗事百科数据 | - 糗事百科数据 | ||
- 剧本杀数据 | - 剧本杀数据 | ||
- DocLayNet 数据 | - DocLayNet 数据 | ||
- | 数据规模: | + | ====== |
- 文本数据:526.14M | - 文本数据:526.14M | ||
- 图片数据:3.61M | - 图片数据:3.61M | ||
- | 数据与任务总结 | + | ====== |
1、文本类项目 | 1、文本类项目 | ||
行 40: | 行 43: | ||
- 初步探索视频数据处理流程 | - 初步探索视频数据处理流程 | ||
- | 组内人员及贡献 | + | ====== |
+ | |||
+ | |||
+ | ===== 文本类项目成员 ===== | ||
- | 文本类项目成员 | ||
| 成员 | 工作内容 | | | 成员 | 工作内容 | | ||
- | |------|----------| | ||
| hertz | 编写xxarxiv_mnbvc的论文爬虫 | | | hertz | 编写xxarxiv_mnbvc的论文爬虫 | | ||
| Murphy | 主要是做了几次论文的分享,跟大家一起讨论 MLLMs 的理解 | | | Murphy | 主要是做了几次论文的分享,跟大家一起讨论 MLLMs 的理解 | | ||
行 52: | 行 56: | ||
| CG | 利用groid分析arxiv文本,按照论文布局排列内容;使用正则规则将公式提取(这一部分可能不会合并到主分支) | | | CG | 利用groid分析arxiv文本,按照论文布局排列内容;使用正则规则将公式提取(这一部分可能不会合并到主分支) | | ||
- | 视觉文档类项目成员 | + | ===== 视觉文档类项目成员 |
| 成员 | 工作内容 | | | 成员 | 工作内容 | | ||
- | |------|----------| | ||
| 小鑫 | 剧本杀的处理,文字识别处理 | | | 小鑫 | 剧本杀的处理,文字识别处理 | | ||
| 七窝 | arxiv数据处理,实现latex到markdown的数据转换 | | | 七窝 | arxiv数据处理,实现latex到markdown的数据转换 | | ||
行 61: | 行 65: | ||
| 苍绮皓 | 主要负责文档类数据规划和产出。完成 mnbvc 多模态格式定义、网页数据图文对提取(模板版) | | | 苍绮皓 | 主要负责文档类数据规划和产出。完成 mnbvc 多模态格式定义、网页数据图文对提取(模板版) | | ||
- | 其他支持成员 | + | ===== 其他支持成员 |
| 成员 | 工作内容 | | | 成员 | 工作内容 | | ||
- | |------|----------| | ||
| 大光 | 项目管理和运营 | | | 大光 | 项目管理和运营 | | ||
| 学鹏 | pdf质量分类算法探究 | | | 学鹏 | pdf质量分类算法探究 | | ||
| 咔 | arxiv多模态图文对 | | | 咔 | arxiv多模态图文对 | | ||
| 小王 | 一些基础支持,比如整理文档等 | | | 小王 | 一些基础支持,比如整理文档等 | |
多模态语料小组年度总结报告.1741941604.txt.gz · 最后更改: 2025/03/14 16:40 由 MNBVC项目组