用户工具

站点工具


多模态语料小组年度总结报告

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
多模态语料小组年度总结报告 [2025/03/14 16:40] – 创建 MNBVC项目组多模态语料小组年度总结报告 [2025/03/14 16:41] (当前版本) MNBVC项目组
行 14: 行 14:
 - 主要来源:MNBVC 每周例会记录 - 主要来源:MNBVC 每周例会记录
  
-已发布数据集:+====== 已发布数据集: ====== 
 - 糗事百科数据 - 糗事百科数据
 - 剧本杀数据 - 剧本杀数据
 - DocLayNet 数据 - DocLayNet 数据
  
-数据规模:+====== 数据规模: ====== 
 - 文本数据:526.14M - 文本数据:526.14M
 - 图片数据:3.61M - 图片数据:3.61M
  
-数据与任务总结+====== 数据与任务总结 ====== 
  
 1、文本类项目 1、文本类项目
行 40: 行 43:
 - 初步探索视频数据处理流程 - 初步探索视频数据处理流程
  
-组内人员及贡献+====== 组内人员及贡献 ====== 
 + 
 + 
 +===== 文本类项目成员 =====
  
-文本类项目成员 
 | 成员 | 工作内容 | | 成员 | 工作内容 |
-|------|----------| 
 | hertz | 编写xxarxiv_mnbvc的论文爬虫 | | hertz | 编写xxarxiv_mnbvc的论文爬虫 |
 | Murphy | 主要是做了几次论文的分享,跟大家一起讨论 MLLMs 的理解 | | Murphy | 主要是做了几次论文的分享,跟大家一起讨论 MLLMs 的理解 |
行 52: 行 56:
 | CG | 利用groid分析arxiv文本,按照论文布局排列内容;使用正则规则将公式提取(这一部分可能不会合并到主分支) | | CG | 利用groid分析arxiv文本,按照论文布局排列内容;使用正则规则将公式提取(这一部分可能不会合并到主分支) |
  
-视觉文档类项目成员+===== 视觉文档类项目成员 ===== 
 | 成员 | 工作内容 | | 成员 | 工作内容 |
-|------|----------| 
 | 小鑫 | 剧本杀的处理,文字识别处理 | | 小鑫 | 剧本杀的处理,文字识别处理 |
 | 七窝 | arxiv数据处理,实现latex到markdown的数据转换 | | 七窝 | arxiv数据处理,实现latex到markdown的数据转换 |
行 61: 行 65:
 | 苍绮皓 | 主要负责文档类数据规划和产出。完成 mnbvc 多模态格式定义、网页数据图文对提取(模板版) | | 苍绮皓 | 主要负责文档类数据规划和产出。完成 mnbvc 多模态格式定义、网页数据图文对提取(模板版) |
  
-其他支持成员+===== 其他支持成员 ===== 
 | 成员 | 工作内容 | | 成员 | 工作内容 |
-|------|----------| 
 | 大光 | 项目管理和运营 | | 大光 | 项目管理和运营 |
 | 学鹏 | pdf质量分类算法探究 | | 学鹏 | pdf质量分类算法探究 |
 | 咔 | arxiv多模态图文对 | | 咔 | arxiv多模态图文对 |
 | 小王 | 一些基础支持,比如整理文档等 | | 小王 | 一些基础支持,比如整理文档等 |
多模态语料小组年度总结报告.1741941604.txt.gz · 最后更改: 2025/03/14 16:40 由 MNBVC项目组