dmtyl
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
dmtyl [2023/07/14 22:28] – MNBVC项目组 | dmtyl [2024/03/09 11:40] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 2: | 行 2: | ||
将图文结合的网页、PDF、WORD文档等转换成多模态语料。 | 将图文结合的网页、PDF、WORD文档等转换成多模态语料。 | ||
+ | |||
+ | ===== 小组成果 ===== | ||
+ | |||
+ | 新人文档:https:// | ||
+ | |||
+ | 小组组内wiki (飞书):https:// | ||
===== 小组任务 ===== | ===== 小组任务 ===== | ||
行 17: | 行 23: | ||
扫描PDF文件夹然后对其进行采样:https:// | 扫描PDF文件夹然后对其进行采样:https:// | ||
- | PDF分类器:https:// | + | PDF语言分类器:https:// |
+ | |||
+ | Chinaxiv抓取:https:// | ||
Arxiv抓取:https:// | Arxiv抓取:https:// | ||
- | ===== 加入小组 ===== | + | Arxiv Tex抽取:https:// |
+ | |||
+ | PDF元数据的lda分类:https:// | ||
+ | |||
+ | PDF工具:https:// | ||
+ | |||
+ | PDF 元信息提取:https:// | ||
+ | |||
+ | PDF 大小分类器:https:// | ||
+ | |||
+ | mutilmodal doc processing 框架:https:// | ||
+ | |||
+ | PDF多模态分析:https:// | ||
- | 项目主页:https:// | + | ===== 其他 ===== |
+ | 论文阅读笔记:https:// | ||
dmtyl.1689344895.txt.gz · 最后更改: 2023/07/14 22:28 由 MNBVC项目组