目录

数据收集小组2025年度工作总结

数据收集小组2025年度工作总结

一、总体概述

2025年，数据收集小组在组长NG因工作变动暂时缺位的情况下，团队成员主动承担责任，在无正式负责人领导的条件下，依然高效推进了多项核心任务。

通过密切协作与专业执行，团队在数据采集、整理、清洗、分析及资源管理等方面均取得了实质性成果，圆满完成了年度目标任务，并为未来的数据资产建设与应用拓展奠定了坚实基础。

二、主要工作与成绩

（一）数据整理与结构化建设

系统整理了互联网档案馆（IA）的数据目录，建立了清晰可查的结构化索引。
深入调研并分析了中文互联网语料资源平台的分布与整体情况，为未来的数据战略提供参考。

（二）历史与专业语料项目推进

“老光盘”历史语料清洗项目持续推进，目前已完成至第10–17批次（@门神）。
完成“电子软件杂志”类资源的调研与初步收集（@急云）。
获取“书格网”约3TB高质量古籍数字化数据，已安全存放于自有服务器（@ttyhtg）。
从“广东省立中山图书馆”获取了一批重要图书资源（@急云）。

（三）网络文本与语料采集

通过批量注册策略，从天涯备份站累计爬取帖子145144条（@武田）。
成功从“知轩网”获取藏书7769本（@龙骑兵）。
获取约11万份药品说明书（@急云）。
成功获取“爱泼斯坦文件”相关数据（@博卡登）。
爬取美国之音（VOA）共1428058篇内容。
获取金融新闻语料19780857篇，约3.3TB数据量。

（四）外部合作与新增数据集

通过与某大型模型公司匿名合作，获取由600万份PDF文件转换而来的纯文本数据集，该数据为互联网未公开资源，经确认无需与现有语料去重。
2025年新增全球专利数据总量达7.91TB，共9793143个文件。

（五）技术研究与资源沟通

对“atimebook”进行内容下载与加密结构技术分析，确认其数据存在加密，目前无法直接使用（@博卡登 @NG @ZKTZ）。
主动联系摩托迷论坛版主chyangwa，确认其论坛服务器在海外正常运行，保持了沟通渠道。
对“阿斯麦（ASML）泄漏的154个数据库”进行了初步研究分析。

三、未来工作展望

推进跨语种多维度语料的采集与清洗。
系统化管理超大规模数据集的元数据与索引体系。
强化对敏感源的风险审查与数据脱敏机制。
探索AI辅助数据抓取、清洗与标注工具的应用。

附录-个人贡献统计

姓名/ID	主要贡献及成果
门神	负责“老光盘”历史语料清洗项目，已完成第10–17批次的数据清洗与整理。
急云	完成“电子软件杂志”类资源的调研与初步收集，获取约11万份药品说明书，并从广东省立中山图书馆获取多批重要图书资源。
武田	通过批量注册新账号等策略，从天涯备份站成功爬取帖子合计145144条。
ttyhtg	获取并管理来自“书格网”的约3TB高质量古籍数字化数据，完成数据存放与维护。
龙骑兵	从“知轩网”成功获取藏书7769本，扩充了相关电子书资源库。
博卡登	主导获取“爱泼斯坦文件”相关数据，并参与“atimebook”内容下载与加密结构技术分析，形成初步技术结论。
NG	作为原组长在变动期间持续提供组内协调与技术支撑，并参与“atimebook”加密分析工作。
ZKTZ	参与“atimebook”相关加密技术分析，协助形成不可直接使用的技术判定结论。
team	整体完成互联网档案馆（IA）数据目录整理及中文互联网语料资源平台调研，形成完整目录及分析结果。
team	协作爬取美国之音（VOA）共1428058篇内容，构建大规模英文新闻语料库。
team	协作获取金融新闻语料19780857篇，合计约3.3TB，为金融领域建模提供数据基础。
team	全年累计获取全球专利数据7.91TB，共9793143个文件，显著扩展技术与专利方向的数据资产。
team	通过与某大型模型公司匿名合作，接入由600万份PDF转换而来的纯文本数据集，该部分数据为互联网未公开资源。
匿名 / team	与摩托迷论坛版主chyangwa建立并保持沟通，确认其海外服务器运行正常，保障后续数据获取通道。
team	对ASML泄漏的154个数据库开展初步研究分析，形成基础研究与风险评估结果。