用户工具

站点工具


dmtyl

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
dmtyl [2023/09/25 14:13] MNBVC项目组dmtyl [2024/03/09 11:40] (当前版本) MNBVC项目组
行 2: 行 2:
  
 将图文结合的网页、PDF、WORD文档等转换成多模态语料。 将图文结合的网页、PDF、WORD文档等转换成多模态语料。
 +
 +===== 小组成果 =====
 +
 +新人文档:https://v61g3vcxy7.feishu.cn/wiki/G0OAwqhA2iNYGrkFOPUc2CpvnIh?from=from_copylink
 +
 +小组组内wiki (飞书):https://v61g3vcxy7.feishu.cn/wiki/H8D1wqyIXim3wcktxgqc0IIlnAf
  
 ===== 小组任务 ===== ===== 小组任务 =====
行 17: 行 23:
 扫描PDF文件夹然后对其进行采样:https://github.com/wanng-ide/scan_copy_pdfs_mnbvc 扫描PDF文件夹然后对其进行采样:https://github.com/wanng-ide/scan_copy_pdfs_mnbvc
  
-PDF分类器:https://github.com/Lu-Tan/pdf_CN_EN_filter_mnbvc+PDF语言分类器:https://github.com/Lu-Tan/pdf_CN_EN_filter_mnbvc 
 + 
 +Chinaxiv抓取:https://github.com/wyzhangyuhan/chinaxivCrawler_mnbvc
  
 Arxiv抓取:https://github.com/wanng-ide/arxivSpider_mnbvc Arxiv抓取:https://github.com/wanng-ide/arxivSpider_mnbvc
  
 +Arxiv Tex抽取:https://github.com/wanng-ide/arxiv_tex_mnbvc
 +
 +PDF元数据的lda分类:https://github.com/FantasticCode2019/pdf_lda_mnbvc
 +
 +PDF工具:https://github.com/akira-l/pdf-tools
 +
 +PDF 元信息提取:https://github.com/MIracleyin/pdf_meta_data_mnbvc
 +
 +PDF 大小分类器:https://github.com/MIracleyin/pdf_size_mnbvc
 +
 +mutilmodal doc processing 框架:https://github.com/MIracleyin/mmdp_mnbvc
 +
 +PDF多模态分析:https://github.com/MIracleyin/mmda_mnbvc
  
 +===== 其他 =====
  
 +论文阅读笔记:https://v61g3vcxy7.feishu.cn/wiki/MykAw1S15iqA5jkETKxc99BJnbf
  
dmtyl.1695622413.txt.gz · 最后更改: 2023/09/25 14:13 由 MNBVC项目组