用户工具

站点工具


代码语料小组2025年度总结

代码语料小组2025年度工作总结

一、总体概述

2025年,代码语料小组主要围绕技术类语料采集开展工作,核心任务是WIPO全球专利数据的持续获取与处理。团队在专利采集系统稳定性、验证码识别等方面做了技术改进,全年新增专利数据7.91TB。同时对部分学术平台进行了采集可行性探索,部分尝试因技术或数据价值问题未持续推进。

二、主要工作与成绩

(一)WIPO专利数据采集(核心任务)

全年累计获取专利数据7.91TB,共9,793,143个文件。 中文专利链接采集:原始链接数32,016,400条,经去重后有效链接25,199,371条。 采集系统改进:子轩、明心、王颢对原有采集代码进行了重构,尝试引入VL模型识别部分站点的验证码,一定程度上提升了采集稳定性。

(二)学术平台采集尝试

ChinaXiv:杰克实现基础反爬机制,可进行小规模采集。 OSF.io:杰克在ChinaXiv经验基础上优化了请求策略,采集稳定性有所提升。 其他平台评估: MetaArXiv:站点无法正常访问,未继续投入 ThesisCommons:确认为OSF.io的索引站,数据重复,无独立采集价值 PsyArXiv:测试后发现数据量小、更新慢,未开展规模化采集

三、存在问题与反思

专利数据清洗工作投入不足,原始数据质量参差不齐 部分平台评估周期较长,但最终未产生有效数据产出

四、2026年工作计划

优先保障WIPO专利数据的稳定获取 补充专利文本的清洗与结构化处理 谨慎评估新数据源,避免无效投入

附录-成员贡献

姓名/ID 主要工作
子轩 参与专利采集系统代码重构
明心 参与VL验证码识别方案测试与集成
王颢 负责中文专利链接去重处理
杰克 完成ChinaXiv/OSF.io反爬机制实现与优化;评估多个预印本平台可行性

附录-数据统计

项目 数值 专利数据总量 7.91 TB 专利文件数 9,793,143 个 中文专利链接 25,199,371 条(去重后)

代码语料小组2025年度总结.txt · 最后更改: MNBVC项目组