MNBVC Wiki
这是本文档旧的修订版!
将图文结合的网页、PDF、WORD文档等转换成多模态语料。
扫描PDF文件夹然后对其进行采样:https://github.com/wanng-ide/scan_copy_pdfs_mnbvc
PDF分类器:https://github.com/Lu-Tan/pdf_CN_EN_filter_mnbvc
Arxiv抓取:https://github.com/wanng-ide/arxivSpider_mnbvc