用户工具

站点工具


dmtyl

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
dmtyl [2024/03/09 11:01] MNBVC项目组dmtyl [2024/03/09 11:40] (当前版本) MNBVC项目组
行 23: 行 23:
 扫描PDF文件夹然后对其进行采样:https://github.com/wanng-ide/scan_copy_pdfs_mnbvc 扫描PDF文件夹然后对其进行采样:https://github.com/wanng-ide/scan_copy_pdfs_mnbvc
  
-PDF分类器:https://github.com/Lu-Tan/pdf_CN_EN_filter_mnbvc+PDF语言分类器:https://github.com/Lu-Tan/pdf_CN_EN_filter_mnbvc
  
 Chinaxiv抓取:https://github.com/wyzhangyuhan/chinaxivCrawler_mnbvc Chinaxiv抓取:https://github.com/wyzhangyuhan/chinaxivCrawler_mnbvc
行 30: 行 30:
  
 Arxiv Tex抽取:https://github.com/wanng-ide/arxiv_tex_mnbvc Arxiv Tex抽取:https://github.com/wanng-ide/arxiv_tex_mnbvc
 +
 +PDF元数据的lda分类:https://github.com/FantasticCode2019/pdf_lda_mnbvc
 +
 +PDF工具:https://github.com/akira-l/pdf-tools
 +
 +PDF 元信息提取:https://github.com/MIracleyin/pdf_meta_data_mnbvc
 +
 +PDF 大小分类器:https://github.com/MIracleyin/pdf_size_mnbvc
 +
 +mutilmodal doc processing 框架:https://github.com/MIracleyin/mmdp_mnbvc
 +
 +PDF多模态分析:https://github.com/MIracleyin/mmda_mnbvc
  
 ===== 其他 ===== ===== 其他 =====
dmtyl.1709953291.txt.gz · 最后更改: 2024/03/09 11:01 由 MNBVC项目组