====== 数据收集小组2025年度工作总结 ====== ===== 一、总体概述 ====== 2025年,数据收集小组在组长NG因工作变动暂时缺位的情况下,团队成员主动承担责任,在无正式负责人领导的条件下,依然高效推进了多项核心任务。 通过密切协作与专业执行,团队在数据采集、整理、清洗、分析及资源管理等方面均取得了实质性成果,圆满完成了年度目标任务,并为未来的数据资产建设与应用拓展奠定了坚实基础。 ===== 二、主要工作与成绩 ====== ===== (一)数据整理与结构化建设 ====== * 系统整理了互联网档案馆(IA)的数据目录,建立了清晰可查的结构化索引。 * 深入调研并分析了中文互联网语料资源平台的分布与整体情况,为未来的数据战略提供参考。 ===== (二)历史与专业语料项目推进 ====== * “老光盘”历史语料清洗项目持续推进,目前已完成至第10–17批次(@门神)。 * 完成“电子软件杂志”类资源的调研与初步收集(@急云)。 * 获取“书格网”约3TB高质量古籍数字化数据,已安全存放于自有服务器(@ttyhtg)。 * 从“广东省立中山图书馆”获取了一批重要图书资源(@急云)。 ===== (三)网络文本与语料采集 ====== * 通过批量注册策略,从天涯备份站累计爬取帖子145144条(@武田)。 * 成功从“知轩网”获取藏书7769本(@龙骑兵)。 * 获取约11万份药品说明书(@急云)。 * 成功获取“爱泼斯坦文件”相关数据(@博卡登)。 * 爬取美国之音(VOA)共1428058篇内容。 * 获取金融新闻语料19780857篇,约3.3TB数据量。 ===== (四)外部合作与新增数据集 ====== * 通过与某大型模型公司匿名合作,获取由600万份PDF文件转换而来的纯文本数据集,该数据为互联网未公开资源,经确认无需与现有语料去重。 * 2025年新增全球专利数据总量达7.91TB,共9793143个文件。 ===== (五)技术研究与资源沟通 ====== * 对“atimebook”进行内容下载与加密结构技术分析,确认其数据存在加密,目前无法直接使用(@博卡登 @NG @ZKTZ)。 * 主动联系摩托迷论坛版主chyangwa,确认其论坛服务器在海外正常运行,保持了沟通渠道。 * 对“阿斯麦(ASML)泄漏的154个数据库”进行了初步研究分析。 ===== 三、未来工作展望 ====== * 推进跨语种多维度语料的采集与清洗。 * 系统化管理超大规模数据集的元数据与索引体系。 * 强化对敏感源的风险审查与数据脱敏机制。 * 探索AI辅助数据抓取、清洗与标注工具的应用。 ==== 附录-个人贡献统计 ==== ^ 姓名/ID ^ 主要贡献及成果 ^ | 门神 | 负责“老光盘”历史语料清洗项目,已完成第10–17批次的数据清洗与整理。 | | 急云 | 完成“电子软件杂志”类资源的调研与初步收集,获取约11万份药品说明书,并从广东省立中山图书馆获取多批重要图书资源。 | | 武田 | 通过批量注册新账号等策略,从天涯备份站成功爬取帖子合计145144条。 | | ttyhtg | 获取并管理来自“书格网”的约3TB高质量古籍数字化数据,完成数据存放与维护。 | | 龙骑兵 | 从“知轩网”成功获取藏书7769本,扩充了相关电子书资源库。 | | 博卡登 | 主导获取“爱泼斯坦文件”相关数据,并参与“atimebook”内容下载与加密结构技术分析,形成初步技术结论。 | | NG | 作为原组长在变动期间持续提供组内协调与技术支撑,并参与“atimebook”加密分析工作。 | | ZKTZ | 参与“atimebook”相关加密技术分析,协助形成不可直接使用的技术判定结论。 | | team | 整体完成互联网档案馆(IA)数据目录整理及中文互联网语料资源平台调研,形成完整目录及分析结果。 | | team | 协作爬取美国之音(VOA)共1428058篇内容,构建大规模英文新闻语料库。 | | team | 协作获取金融新闻语料19780857篇,合计约3.3TB,为金融领域建模提供数据基础。 | | team | 全年累计获取全球专利数据7.91TB,共9793143个文件,显著扩展技术与专利方向的数据资产。 | | team | 通过与某大型模型公司匿名合作,接入由600万份PDF转换而来的纯文本数据集,该部分数据为互联网未公开资源。 | | 匿名 / team| 与摩托迷论坛版主chyangwa建立并保持沟通,确认其海外服务器运行正常,保障后续数据获取通道。 | | team | 对ASML泄漏的154个数据库开展初步研究分析,形成基础研究与风险评估结果。 |