小组针对多个高质量数据源进行了清洗与格式转化:
为了应对日益增长的数据量,小组对核心检查工具进行了性能迭代:
对历史存量的非标准化数据进行处理,涉及总量约 700GB 的复杂异构数据:
针对论坛数据中复杂的“楼中楼”结构,小组进行了专项技术攻关:
| 组员 | 核心任务与具体进展 |
|---|---|
| 笑将 | 格式库维护:主导标准化通用格式处理库 V1/V2 版本发布及示例代码编写;金融数据:完成招商银行纯文本数据处理;新闻数据:完成彭博社和路透社数据处理;教育数据:完成中文教育数据集清洗脚本;CCPDF:数据格式整理与代码实现;访谈数据:NPR 和 CNN 的访谈文本数据处理,处理为论坛语料格式 |
| 夏月 | Google 专利:将谷歌专利数据处理并转化为通用文本语料;Hacker News:完成 WARC 解析、乱码修复及通用格式转化;存量数据标准化:完成 baidu 小说数据 20230176~20230183、20230185 (9个包) 处理,解决 OOM 问题 |
| 南山居士 | Reddit 专项:完成三批 Reddit 数据处理,解决 JSON 解码、数据重复及 HTML 转化问题;存量数据标准化:完成 20230114 数据包 (含 Zlibrary、Txtsk、金融知道) 的标准化 |
| 熊熊 | 存量数据标准化:完成 Wudao (20230117-0123)、Z-library (20230109, 0110, 0124)、Txtsk (20230113)、混合数据包 20230127/0128;工具优化:负责 DataChecker、DataClean、语料标准格式等基建工作维护 |
| Mark | 微博数据:完成微博数据处理和统计、去重及 0 回复过滤,解决转发主体识别问题;图书数据:负责知轩网图书数据处理,修复 Simhash 重复检测 Bug |
| 6子 | 学术论文:完成 Hanspub 中文论文处理;处理 NeurIPS 论文及审稿意见并转为多模态数据;语种统计:完成美国之音 (VOA) 语料语种与比例统计 |
| Final | 邮件语料:完成希拉里邮件数据处理,解决正则匹配、邮件重复及回复关系还原问题 |
| 花火火 | 论坛语料:负责最新里屋论坛数据的解析与处理代码编写 |
| 等战 | 代码修复:负责 Hacker News 故障数据源的重新获取 (JSONL 格式) 与初步解析 |