语料标准化与清洗小组2025年度总结

目录

一、核心工作领域进展
二、成员贡献汇总

一、核心工作领域进展

1. 专项语料清洗任务

小组针对多个高质量数据源进行了清洗与格式转化：

Hacker News：历经 WARC 解析、数据源重获取（JSONL）、乱码修复，最终完成通用格式转化与提交
Reddit：完成了三批数据的处理，解决了 JSON 解码、数据量过少及去重等核心问题，实现了 HTML 到标准格式的转化
微博：完成了转发主体识别、去重及 0 回复过滤，数据已上传
金融数据：完成招行金融数据纯文本数据处理
邮件数据：完成了希拉里邮件的正则匹配、去重及回复关系梳理
Hanspub 中文论文：将 Hanspub 中文论文处理为通用语料格式
中文教育数据集：完成网友提供的中文教育数据集清洗并提交处理脚本
CCPDF数据：完成CCPDF数据的纯文本数据处理
NPR和CNN访谈数据：完成NPR和CNN访谈数据，处理为论坛语料格式
新闻数据处理：完成路透社和彭博社新闻数据处理，处理为通用语料格式
谷歌专利数据：将专利数据处理为通用文本语料
知轩网图书：完成数据处理，修复 Simhash 重复检测 Bug
美国之音：处理为通用文本语料，数据处理中

2. 工具链优化

为了应对日益增长的数据量，小组对核心检查工具进行了性能迭代：

DataChecker 性能提升：优化中英文分类速度慢的问题，DataChecker 改进为随机读取10%数据的采样检查模式，大幅提升了预检效率，并解决部分 Bug
DataClean 代码仓：由笑将主导，提供了标准化的数据处理架构和示例代码，实现了代码复用
Simhash 去重：发现并尝试修复 Simhash 代码中的内容溢出和整型格式 bug
数据格式维护：优化和维护多种数据格式，更新 Wiki

3. 历史非标准格式数据标准化

对历史存量的非标准化数据进行处理，涉及总量约 700GB 的复杂异构数据：

百度小说系列：完成了 20230176~20230183 及 20230185 共9个数据包的清洗
Wudao 开源数据：20230117 至 20230123 共6个数据包
Z-library/Txtsk：20230109、20230110、20230113、20230124 等专项数据包
20230114：包含 Z-library、Txtsk、金融知道等多种数据
20230127/20230128：涵盖 Z-library、阿里云、百科及问答语料

4. 论坛语料格式优化

针对论坛数据中复杂的“楼中楼”结构，小组进行了专项技术攻关：

结构优化：为支持楼中楼格式，优化了论坛语料通用标准，通过在扩展文件中保持基于 ID 的引用关系，确保了回复顺序的正确性，同时兼顾了开源社区的使用便利性

二、成员贡献汇总

组员	核心任务与具体进展
笑将	格式库维护：主导标准化通用格式处理库 V1/V2 版本发布及示例代码编写；金融数据：完成招商银行纯文本数据处理；新闻数据：完成彭博社和路透社数据处理；教育数据：完成中文教育数据集清洗脚本；CCPDF：数据格式整理与代码实现；访谈数据：NPR 和 CNN 的访谈文本数据处理，处理为论坛语料格式
夏月	Google 专利：将谷歌专利数据处理并转化为通用文本语料；Hacker News：完成 WARC 解析、乱码修复及通用格式转化；存量数据标准化：完成 baidu 小说数据 20230176~20230183、20230185 (9个包) 处理，解决 OOM 问题
南山居士	Reddit 专项：完成三批 Reddit 数据处理，解决 JSON 解码、数据重复及 HTML 转化问题；存量数据标准化：完成 20230114 数据包 (含 Zlibrary、Txtsk、金融知道) 的标准化
熊熊	存量数据标准化：完成 Wudao (20230117-0123)、Z-library (20230109, 0110, 0124)、Txtsk (20230113)、混合数据包 20230127/0128；工具优化：负责 DataChecker、DataClean、语料标准格式等基建工作维护
Mark	微博数据：完成微博数据处理和统计、去重及 0 回复过滤，解决转发主体识别问题；图书数据：负责知轩网图书数据处理，修复 Simhash 重复检测 Bug
6子	学术论文：完成 Hanspub 中文论文处理；处理 NeurIPS 论文及审稿意见并转为多模态数据；语种统计：完成美国之音 (VOA) 语料语种与比例统计
Final	邮件语料：完成希拉里邮件数据处理，解决正则匹配、邮件重复及回复关系还原问题
花火火	论坛语料：负责最新里屋论坛数据的解析与处理代码编写
等战	代码修复：负责 Hacker News 故障数据源的重新获取 (JSONL 格式) 与初步解析