命名空间:中文页面
差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 命名空间:中文页面 [2026/01/31 15:35] – 多模态数据小组 2025 总结 MNBVC项目组 | 命名空间:中文页面 [2026/01/31 15:37] (当前版本) – 移除 MNBVC项目组 | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| - | == 一、工作概述 == | ||
| - | 2025 年,多模态数据小组围绕多模态数据获取与处理能力建设,推进文档、图文与音视频数据的规模化解析与工程化交付,重点补齐 PDF、LaTeX、音视频结构化等基础能力。 | ||
| - | |||
| - | == 二、主要工作内容 == | ||
| - | |||
| - | === 1. 文本与文档类数据 === | ||
| - | •完成 arXiv 多模态数据处理全流程,覆盖源码、图文对、表格与公式 | ||
| - | •构建 PDF 批量处理 Pipeline,实现过滤、分类与解析 | ||
| - | •调研并对比多种 PDF 解析工具,MinerU 综合效果最佳 | ||
| - | •启动专利数据解析,完成 ZIP/XML 结构分析,推进 TIFF 扫描件多模态化 | ||
| - | |||
| - | === 2. 图文多模态数据 === | ||
| - | •完成博物馆多模态数据的采集、转换与发布 | ||
| - | •完成金融多模态数据的调研与处理验证 | ||
| - | |||
| - | === 3. 音视频数据 === | ||
| - | •完成会议音视频数据处理与发布流程 | ||
| - | •实现话者分离 | ||
| - | •确定视频二进制嵌入 Parquet 的存储方案 | ||
| - | |||
| - | === 4. 工具与基础设施 === | ||
| - | •开发统一多模态数据转换工具 | ||
| - | •开发 xgb_ocr_classifier | ||
| - | •开发 mupdf-webviewer 标注工具 | ||
| - | •完成 LaTeX 渲染及 table / equation 工具链 | ||
| - | |||
| - | == 三、数据交付情况 == | ||
| - | |||
| - | === 已发布 === | ||
| - | •博物馆多模态数据 | ||
| - | •会议音视频数据 | ||
| - | •剧本杀数据 | ||
| - | |||
| - | === 已完成待交付 === | ||
| - | •arXiv 多模态数据 | ||
| - | •NIPS 数据解析结果 | ||
| - | |||
| - | == 四、人员分工 == | ||
| - | •arXiv / PDF / 工具链:小七、咔、苍绮皓、betrace、鱼生、小鑫等 | ||
| - | •博物馆数据:Hertz | ||
| - | •音视频数据:天地不仁 以万物为刍狗 | ||
| - | •专利数据:临风 | ||
| - | •项目支持:大光 | ||
| - | |||
| - | == 五、总结与展望 == | ||
| - | |||
| - | 2025 年完成多模态数据处理流程的系统化建设与多项数据交付。 | ||
| - | 2026 年将继续提升自动化水平,扩展数据规模与模态覆盖范围。 | ||
命名空间/中文页面.1769844925.txt.gz · 最后更改: 由 MNBVC项目组
