用户工具

站点工具


语料标准化与清洗小组2025年度总结

一、核心工作领域进展

1. 专项语料清洗任务

小组针对多个高质量数据源进行了清洗与格式转化:

  • Hacker News:历经 WARC 解析、数据源重获取(JSONL)、乱码修复,最终完成通用格式转化与提交
  • Reddit:完成了三批数据的处理,解决了 JSON 解码、数据量过少及去重等核心问题,实现了 HTML 到标准格式的转化
  • 微博:完成了转发主体识别、去重及 0 回复过滤,数据已上传
  • 金融数据:完成招行金融数据纯文本数据处理
  • 邮件数据:完成了希拉里邮件的正则匹配、去重及回复关系梳理
  • Hanspub 中文论文:将 Hanspub 中文论文处理为通用语料格式
  • 中文教育数据集:完成网友提供的中文教育数据集清洗并提交处理脚本
  • CCPDF数据:完成CCPDF数据的纯文本数据处理
  • NPR和CNN访谈数据:完成NPR和CNN访谈数据,处理为论坛语料格式
  • 新闻数据处理:完成路透社和彭博社新闻数据处理,处理为通用语料格式
  • 谷歌专利数据:将专利数据处理为通用文本语料
  • 知轩网图书:完成数据处理,修复 Simhash 重复检测 Bug
  • 美国之音:处理为通用文本语料,数据处理中

2. 工具链优化

为了应对日益增长的数据量,小组对核心检查工具进行了性能迭代:

  • DataChecker 性能提升:优化中英文分类速度慢的问题,DataChecker 改进为随机读取10%数据的采样检查模式,大幅提升了预检效率,并解决部分 Bug
  • DataClean 代码仓:由笑将主导,提供了标准化的数据处理架构和示例代码,实现了代码复用
  • Simhash 去重:发现并尝试修复 Simhash 代码中的内容溢出和整型格式 bug
  • 数据格式维护:优化和维护多种数据格式,更新 Wiki

3. 历史非标准格式数据标准化

对历史存量的非标准化数据进行处理,涉及总量约 700GB 的复杂异构数据:

  • 百度小说系列:完成了 20230176~20230183 及 20230185 共9个数据包的清洗
  • Wudao 开源数据:20230117 至 20230123 共6个数据包
  • Z-library/Txtsk:20230109、20230110、20230113、20230124 等专项数据包
  • 20230114:包含 Z-library、Txtsk、金融知道等多种数据
  • 20230127/20230128:涵盖 Z-library、阿里云、百科及问答语料

4. 论坛语料格式优化

针对论坛数据中复杂的“楼中楼”结构,小组进行了专项技术攻关:

  • 结构优化:为支持楼中楼格式,优化了论坛语料通用标准,通过在扩展文件中保持基于 ID 的引用关系,确保了回复顺序的正确性,同时兼顾了开源社区的使用便利性

二、成员贡献汇总

组员 核心任务与具体进展
笑将 格式库维护:主导标准化通用格式处理库 V1/V2 版本发布及示例代码编写;金融数据:完成招商银行纯文本数据处理;新闻数据:完成彭博社和路透社数据处理;教育数据:完成中文教育数据集清洗脚本;CCPDF:数据格式整理与代码实现;访谈数据:NPR 和 CNN 的访谈文本数据处理,处理为论坛语料格式
夏月 Google 专利:将谷歌专利数据处理并转化为通用文本语料;Hacker News:完成 WARC 解析、乱码修复及通用格式转化;存量数据标准化:完成 baidu 小说数据 20230176~20230183、20230185 (9个包) 处理,解决 OOM 问题
南山居士 Reddit 专项:完成三批 Reddit 数据处理,解决 JSON 解码、数据重复及 HTML 转化问题;存量数据标准化:完成 20230114 数据包 (含 Zlibrary、Txtsk、金融知道) 的标准化
熊熊 存量数据标准化:完成 Wudao (20230117-0123)、Z-library (20230109, 0110, 0124)、Txtsk (20230113)、混合数据包 20230127/0128;工具优化:负责 DataChecker、DataClean、语料标准格式等基建工作维护
Mark 微博数据:完成微博数据处理和统计、去重及 0 回复过滤,解决转发主体识别问题;图书数据:负责知轩网图书数据处理,修复 Simhash 重复检测 Bug
6子 学术论文:完成 Hanspub 中文论文处理;处理 NeurIPS 论文及审稿意见并转为多模态数据;语种统计:完成美国之音 (VOA) 语料语种与比例统计
Final 邮件语料:完成希拉里邮件数据处理,解决正则匹配、邮件重复及回复关系还原问题
花火火 论坛语料:负责最新里屋论坛数据的解析与处理代码编写
等战 代码修复:负责 Hacker News 故障数据源的重新获取 (JSONL 格式) 与初步解析
语料标准化与清洗小组2025年度总结.txt · 最后更改: MNBVC项目组