用户工具

站点工具


dmtyl

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
dmtyl [2023/07/09 19:53] – [小组成果] MNBVC项目组dmtyl [2024/03/09 11:40] (当前版本) MNBVC项目组
行 1: 行 1:
 ===== 多模态小组目标 ===== ===== 多模态小组目标 =====
 +
 将图文结合的网页、PDF、WORD文档等转换成多模态语料。 将图文结合的网页、PDF、WORD文档等转换成多模态语料。
 +
 +===== 小组成果 =====
 +
 +新人文档:https://v61g3vcxy7.feishu.cn/wiki/G0OAwqhA2iNYGrkFOPUc2CpvnIh?from=from_copylink
 +
 +小组组内wiki (飞书):https://v61g3vcxy7.feishu.cn/wiki/H8D1wqyIXim3wcktxgqc0IIlnAf
  
 ===== 小组任务 ===== ===== 小组任务 =====
  
 +1. 对纯中英文的PDF进行抽取,形成纯文本数据集
 +
 +2. 对论文抽取成多模态数据集
 +
 +3. 对复杂的PDF进行抽取
 +
 +4. 更多多模态数据(文本,音频,视频等)
  
 ===== 小组成果 ===== ===== 小组成果 =====
  
 扫描PDF文件夹然后对其进行采样:https://github.com/wanng-ide/scan_copy_pdfs_mnbvc 扫描PDF文件夹然后对其进行采样:https://github.com/wanng-ide/scan_copy_pdfs_mnbvc
-PDF分类器:https://github.com/Lu-Tan/pdf_CN_EN_filter_mnbvc+ 
 +PDF语言分类器:https://github.com/Lu-Tan/pdf_CN_EN_filter_mnbvc 
 + 
 +Chinaxiv抓取:https://github.com/wyzhangyuhan/chinaxivCrawler_mnbvc 
 Arxiv抓取:https://github.com/wanng-ide/arxivSpider_mnbvc Arxiv抓取:https://github.com/wanng-ide/arxivSpider_mnbvc
  
 +Arxiv Tex抽取:https://github.com/wanng-ide/arxiv_tex_mnbvc
 +
 +PDF元数据的lda分类:https://github.com/FantasticCode2019/pdf_lda_mnbvc
 +
 +PDF工具:https://github.com/akira-l/pdf-tools
 +
 +PDF 元信息提取:https://github.com/MIracleyin/pdf_meta_data_mnbvc
 +
 +PDF 大小分类器:https://github.com/MIracleyin/pdf_size_mnbvc
 +
 +mutilmodal doc processing 框架:https://github.com/MIracleyin/mmdp_mnbvc
 +
 +PDF多模态分析:https://github.com/MIracleyin/mmda_mnbvc
 +
 +===== 其他 =====
 +
 +论文阅读笔记:https://v61g3vcxy7.feishu.cn/wiki/MykAw1S15iqA5jkETKxc99BJnbf
  
dmtyl.1688903609.txt.gz · 最后更改: 2023/07/09 19:53 由 MNBVC项目组