目录

一、核心工作领域进展

1. 专项语料清洗任务

小组针对多个高质量数据源进行了清洗与格式转化:

2. 工具链优化

为了应对日益增长的数据量,小组对核心检查工具进行了性能迭代:

3. 历史非标准格式数据标准化

对历史存量的非标准化数据进行处理,涉及总量约 700GB 的复杂异构数据:

4. 论坛语料格式优化

针对论坛数据中复杂的“楼中楼”结构,小组进行了专项技术攻关:

二、成员贡献汇总

组员 核心任务与具体进展
笑将 格式库维护:主导标准化通用格式处理库 V1/V2 版本发布及示例代码编写;金融数据:完成招商银行纯文本数据处理;新闻数据:完成彭博社和路透社数据处理;教育数据:完成中文教育数据集清洗脚本;CCPDF:数据格式整理与代码实现;访谈数据:NPR 和 CNN 的访谈文本数据处理,处理为论坛语料格式
夏月 Google 专利:将谷歌专利数据处理并转化为通用文本语料;Hacker News:完成 WARC 解析、乱码修复及通用格式转化;存量数据标准化:完成 baidu 小说数据 20230176~20230183、20230185 (9个包) 处理,解决 OOM 问题
南山居士 Reddit 专项:完成三批 Reddit 数据处理,解决 JSON 解码、数据重复及 HTML 转化问题;存量数据标准化:完成 20230114 数据包 (含 Zlibrary、Txtsk、金融知道) 的标准化
熊熊 存量数据标准化:完成 Wudao (20230117-0123)、Z-library (20230109, 0110, 0124)、Txtsk (20230113)、混合数据包 20230127/0128;工具优化:负责 DataChecker、DataClean、语料标准格式等基建工作维护
Mark 微博数据:完成微博数据处理和统计、去重及 0 回复过滤,解决转发主体识别问题;图书数据:负责知轩网图书数据处理,修复 Simhash 重复检测 Bug
6子 学术论文:完成 Hanspub 中文论文处理;处理 NeurIPS 论文及审稿意见并转为多模态数据;语种统计:完成美国之音 (VOA) 语料语种与比例统计
Final 邮件语料:完成希拉里邮件数据处理,解决正则匹配、邮件重复及回复关系还原问题
花火火 论坛语料:负责最新里屋论坛数据的解析与处理代码编写
等战 代码修复:负责 Hacker News 故障数据源的重新获取 (JSONL 格式) 与初步解析