dmtyl
这是本文档旧的修订版!
多模态小组目标
将图文结合的网页、PDF、WORD文档等转换成多模态语料。
小组任务
1. 对纯中英文的PDF进行抽取,形成纯文本数据集
2. 对论文抽取成多模态数据集
3. 对复杂的PDF进行抽取
4. 更多多模态数据(文本,音频,视频等)
小组成果
dmtyl.1695622413.txt.gz · 最后更改: 2023/09/25 14:13 由 MNBVC项目组
这是本文档旧的修订版!
将图文结合的网页、PDF、WORD文档等转换成多模态语料。
1. 对纯中英文的PDF进行抽取,形成纯文本数据集
2. 对论文抽取成多模态数据集
3. 对复杂的PDF进行抽取
4. 更多多模态数据(文本,音频,视频等)