代码语料小组2025年度工作总结

一、总体概述

2025年，代码语料小组主要围绕技术类语料采集开展工作，核心任务是WIPO全球专利数据的持续获取与处理。团队在专利采集系统稳定性、验证码识别等方面做了技术改进，全年新增专利数据7.91TB。同时对部分学术平台进行了采集可行性探索，部分尝试因技术或数据价值问题未持续推进。

二、主要工作与成绩

（一）WIPO专利数据采集（核心任务）

全年累计获取专利数据7.91TB，共9,793,143个文件。中文专利链接采集：原始链接数32,016,400条，经去重后有效链接25,199,371条。采集系统改进：子轩、明心、王颢对原有采集代码进行了重构，尝试引入VL模型识别部分站点的验证码，一定程度上提升了采集稳定性。

（二）学术平台采集尝试

ChinaXiv：杰克实现基础反爬机制，可进行小规模采集。 OSF.io：杰克在ChinaXiv经验基础上优化了请求策略，采集稳定性有所提升。其他平台评估： MetaArXiv：站点无法正常访问，未继续投入 ThesisCommons：确认为OSF.io的索引站，数据重复，无独立采集价值 PsyArXiv：测试后发现数据量小、更新慢，未开展规模化采集

三、存在问题与反思

专利数据清洗工作投入不足，原始数据质量参差不齐部分平台评估周期较长，但最终未产生有效数据产出

四、2026年工作计划

优先保障WIPO专利数据的稳定获取补充专利文本的清洗与结构化处理谨慎评估新数据源，避免无效投入

附录-成员贡献

姓名/ID	主要工作
子轩	参与专利采集系统代码重构
明心	参与VL验证码识别方案测试与集成
王颢	负责中文专利链接去重处理
杰克	完成ChinaXiv/OSF.io反爬机制实现与优化；评估多个预印本平台可行性

附录-数据统计

项目数值专利数据总量 7.91 TB 专利文件数 9,793,143 个中文专利链接 25,199,371 条（去重后）

MNBVC-Wiki

目录