跳至内容
MNBVC-Wiki
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
多模态语料小组年度总结报告
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
截止 2024 年末,MNBVC 多模态数据小组在三大领域取得了显著进展: 1. 文本类数据 - 完成格式定义、数据解析与发布 - 主要数据来源:糗事百科、Internet Archive - 以网页类型数据为主 2. 视觉文档类数据 - 完成格式定义、数据解析与发布 - 以 PDF 类数据为主要处理对象 3. 音视频类数据 - 完成格式定义、数据解析 - 主要来源:MNBVC 每周例会记录 ====== 已发布数据集: ====== - 糗事百科数据 - 剧本杀数据 - DocLayNet 数据 ====== 数据规模: ====== - 文本数据:526.14M - 图片数据:3.61M ====== 数据与任务总结 ====== 1、文本类项目 - arXiv 数据。本年度主要完成了原始 tex 转换为 Markdown 图文交错数据以及从 arXiv 中提取图片、公式、表格构建的图文对数据; - 网页图文数据。本年度完成了糗事百科图文对数据发布; - 初步探索网页 warc 数据处理流程; 2、视觉文档类项目 - chinaXiv 数据。本年度完成了 chinaXiv PDF 数据的解析; - 剧本杀数据。本年度完成了剧本杀数据发布 - 初步探索复杂文档数据处理流程; 3、音视频类项目 - 会议音频数据。本年度完成了音频提取解析; - 会议视频数据。本年度完成了视频相关工具的调研; - 初步探索视频数据处理流程 ====== 组内人员及贡献 ====== ===== 文本类项目成员 ===== | 成员 | 工作内容 | | hertz | 编写xxarxiv_mnbvc的论文爬虫 | | Murphy | 主要是做了几次论文的分享,跟大家一起讨论 MLLMs 的理解 | | Ez | PDF 行数据识别、可视化、音频识别、切割 | | leamon | 针对warc数据进行解析和转换,lda模型对pdf进行大体分类的正确性的实验 | | gan | 协助进行chinaxiv论文的收集 | | CG | 利用groid分析arxiv文本,按照论文布局排列内容;使用正则规则将公式提取(这一部分可能不会合并到主分支) | ===== 视觉文档类项目成员 ===== | 成员 | 工作内容 | | 小鑫 | 剧本杀的处理,文字识别处理 | | 七窝 | arxiv数据处理,实现latex到markdown的数据转换 | | 天哥 | DocLayNet公开数据集处理、会议录音、剧本杀音频处理 | | 猪猪侠 | 参与chinaxiv pdf解析,免费利用yolo进行版面分析(最后未能使用上) | | 苍绮皓 | 主要负责文档类数据规划和产出。完成 mnbvc 多模态格式定义、网页数据图文对提取(模板版) | ===== 其他支持成员 ===== | 成员 | 工作内容 | | 大光 | 项目管理和运营 | | 学鹏 | pdf质量分类算法探究 | | 咔 | arxiv多模态图文对 | | 小王 | 一些基础支持,比如整理文档等 |
多模态语料小组年度总结报告.txt
· 最后更改: 2025/03/14 16:41 由
MNBVC项目组
页面工具
显示页面
过去修订
反向链接
回到顶部