用户工具

站点工具


dmtyl

这是本文档旧的修订版!


多模态小组目标

将图文结合的网页、PDF、WORD文档等转换成多模态语料。

小组任务

1. 对纯中英文的PDF进行抽取,形成纯文本数据集

2. 对论文抽取成多模态数据集

3. 对复杂的PDF进行抽取

4. 更多多模态数据(文本,音频,视频等)

小组成果

加入小组

项目主页:https://mnbvc.253874.net/ 或发邮件:MNBVC@253874.net

dmtyl.1689344895.txt.gz · 最后更改: 2023/07/14 22:28 由 MNBVC项目组