代码语料小组2025年度总结
目录
代码语料小组2025年度工作总结
一、总体概述
2025年,代码语料小组主要围绕技术类语料采集开展工作,核心任务是WIPO全球专利数据的持续获取与处理。团队在专利采集系统稳定性、验证码识别等方面做了技术改进,全年新增专利数据7.91TB。同时对部分学术平台进行了采集可行性探索,部分尝试因技术或数据价值问题未持续推进。
二、主要工作与成绩
(一)WIPO专利数据采集(核心任务)
全年累计获取专利数据7.91TB,共9,793,143个文件。 中文专利链接采集:原始链接数32,016,400条,经去重后有效链接25,199,371条。 采集系统改进:子轩、明心、王颢对原有采集代码进行了重构,尝试引入VL模型识别部分站点的验证码,一定程度上提升了采集稳定性。
(二)学术平台采集尝试
ChinaXiv:杰克实现基础反爬机制,可进行小规模采集。 OSF.io:杰克在ChinaXiv经验基础上优化了请求策略,采集稳定性有所提升。 其他平台评估: MetaArXiv:站点无法正常访问,未继续投入 ThesisCommons:确认为OSF.io的索引站,数据重复,无独立采集价值 PsyArXiv:测试后发现数据量小、更新慢,未开展规模化采集
三、存在问题与反思
专利数据清洗工作投入不足,原始数据质量参差不齐 部分平台评估周期较长,但最终未产生有效数据产出
四、2026年工作计划
优先保障WIPO专利数据的稳定获取 补充专利文本的清洗与结构化处理 谨慎评估新数据源,避免无效投入
附录-成员贡献
| 姓名/ID | 主要工作 |
|---|---|
| 子轩 | 参与专利采集系统代码重构 |
| 明心 | 参与VL验证码识别方案测试与集成 |
| 王颢 | 负责中文专利链接去重处理 |
| 杰克 | 完成ChinaXiv/OSF.io反爬机制实现与优化;评估多个预印本平台可行性 |
附录-数据统计
项目 数值 专利数据总量 7.91 TB 专利文件数 9,793,143 个 中文专利链接 25,199,371 条(去重后)
代码语料小组2025年度总结.txt · 最后更改: 由 MNBVC项目组
