dmtyl
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
dmtyl [2023/07/02 19:31] – 创建 MNBVC项目组 | dmtyl [2024/03/09 11:40] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 1: | 行 1: | ||
===== 多模态小组目标 ===== | ===== 多模态小组目标 ===== | ||
+ | |||
将图文结合的网页、PDF、WORD文档等转换成多模态语料。 | 将图文结合的网页、PDF、WORD文档等转换成多模态语料。 | ||
+ | |||
+ | ===== 小组成果 ===== | ||
+ | |||
+ | 新人文档:https:// | ||
+ | |||
+ | 小组组内wiki (飞书):https:// | ||
===== 小组任务 ===== | ===== 小组任务 ===== | ||
+ | 1. 对纯中英文的PDF进行抽取,形成纯文本数据集 | ||
+ | |||
+ | 2. 对论文抽取成多模态数据集 | ||
+ | |||
+ | 3. 对复杂的PDF进行抽取 | ||
+ | |||
+ | 4. 更多多模态数据(文本,音频,视频等) | ||
===== 小组成果 ===== | ===== 小组成果 ===== | ||
+ | |||
+ | 扫描PDF文件夹然后对其进行采样:https:// | ||
+ | |||
+ | PDF语言分类器:https:// | ||
+ | |||
+ | Chinaxiv抓取:https:// | ||
+ | |||
+ | Arxiv抓取:https:// | ||
+ | |||
+ | Arxiv Tex抽取:https:// | ||
+ | |||
+ | PDF元数据的lda分类:https:// | ||
+ | |||
+ | PDF工具:https:// | ||
+ | |||
+ | PDF 元信息提取:https:// | ||
+ | |||
+ | PDF 大小分类器:https:// | ||
+ | |||
+ | mutilmodal doc processing 框架:https:// | ||
+ | |||
+ | PDF多模态分析:https:// | ||
+ | |||
+ | ===== 其他 ===== | ||
+ | |||
+ | 论文阅读笔记:https:// | ||
+ |
dmtyl.1688297477.txt.gz · 最后更改: 2023/07/02 19:31 由 MNBVC项目组