多模态语料小组2025年度总结

2025 年，多模态数据小组围绕多模态数据获取与处理能力建设，推进文档、图文与音视频数据的规模化解析与工程化交付，重点补齐 PDF、LaTeX、音视频结构化等基础能力。

•完成 arXiv 多模态数据处理全流程，覆盖源码、图文对、表格与公式
•构建 PDF 批量处理 Pipeline，实现过滤、分类与解析
•调研并对比多种 PDF 解析工具，MinerU 综合效果最佳
•启动专利数据解析，完成 ZIP/XML 结构分析，推进 TIFF 扫描件多模态化

•完成博物馆多模态数据的采集、转换与发布
•完成金融多模态数据的调研与处理验证

•完成会议音视频数据处理与发布流程
•实现话者分离
•确定视频二进制嵌入 Parquet 的存储方案

•开发统一多模态数据转换工具
•开发 xgb_ocr_classifier
•开发 mupdf-webviewer 标注工具
•完成 LaTeX 渲染及 table / equation 工具链

•博物馆多模态数据
•会议音视频数据
•剧本杀数据

•arXiv 多模态数据
•NIPS 数据解析结果

•arXiv / PDF / 工具链：小七、咔、苍绮皓、betrace、鱼生、小鑫等
•博物馆数据：Hertz
•音视频数据：天地不仁 以万物为刍狗
•专利数据：临风
•项目支持：大光

2025 年完成多模态数据处理流程的系统化建设与多项数据交付。 2026 年将继续提升自动化水平，扩展数据规模与模态覆盖范围。