===== 一、核心工作领域进展 ===== ==== 1. 专项语料清洗任务 ==== 小组针对多个高质量数据源进行了清洗与格式转化: * Hacker News:历经 WARC 解析、数据源重获取(JSONL)、乱码修复,最终完成通用格式转化与提交 * Reddit:完成了三批数据的处理,解决了 JSON 解码、数据量过少及去重等核心问题,实现了 HTML 到标准格式的转化 * 微博:完成了转发主体识别、去重及 0 回复过滤,数据已上传 * 金融数据:完成招行金融数据纯文本数据处理 * 邮件数据:完成了希拉里邮件的正则匹配、去重及回复关系梳理 * Hanspub 中文论文:将 Hanspub 中文论文处理为通用语料格式 * 中文教育数据集:完成网友提供的中文教育数据集清洗并提交处理脚本 * CCPDF数据:完成CCPDF数据的纯文本数据处理 * NPR和CNN访谈数据:完成NPR和CNN访谈数据,处理为论坛语料格式 * 新闻数据处理:完成路透社和彭博社新闻数据处理,处理为通用语料格式 * 谷歌专利数据:将专利数据处理为通用文本语料 * 知轩网图书:完成数据处理,修复 Simhash 重复检测 Bug * 美国之音:处理为通用文本语料,数据处理中 ==== 2. 工具链优化 ==== 为了应对日益增长的数据量,小组对核心检查工具进行了性能迭代: * DataChecker 性能提升:优化中英文分类速度慢的问题,DataChecker 改进为随机读取10%数据的采样检查模式,大幅提升了预检效率,并解决部分 Bug * DataClean 代码仓:由笑将主导,提供了标准化的数据处理架构和示例代码,实现了代码复用 * Simhash 去重:发现并尝试修复 Simhash 代码中的内容溢出和整型格式 bug * 数据格式维护:优化和维护多种数据格式,更新 Wiki ==== 3. 历史非标准格式数据标准化 ==== 对历史存量的非标准化数据进行处理,涉及总量约 700GB 的复杂异构数据: * 百度小说系列:完成了 20230176~20230183 及 20230185 共9个数据包的清洗 * Wudao 开源数据:20230117 至 20230123 共6个数据包 * Z-library/Txtsk:20230109、20230110、20230113、20230124 等专项数据包 * 20230114:包含 Z-library、Txtsk、金融知道等多种数据 * 20230127/20230128:涵盖 Z-library、阿里云、百科及问答语料 ==== 4. 论坛语料格式优化 ==== 针对论坛数据中复杂的"楼中楼"结构,小组进行了专项技术攻关: * 结构优化:为支持楼中楼格式,优化了论坛语料通用标准,通过在扩展文件中保持基于 ID 的引用关系,确保了回复顺序的正确性,同时兼顾了开源社区的使用便利性 ===== 二、成员贡献汇总 ===== ^ 组员 ^ 核心任务与具体进展 ^ | 笑将 | 格式库维护:主导标准化通用格式处理库 V1/V2 版本发布及示例代码编写;金融数据:完成招商银行纯文本数据处理;新闻数据:完成彭博社和路透社数据处理;教育数据:完成中文教育数据集清洗脚本;CCPDF:数据格式整理与代码实现;访谈数据:NPR 和 CNN 的访谈文本数据处理,处理为论坛语料格式 | | 夏月 | Google 专利:将谷歌专利数据处理并转化为通用文本语料;Hacker News:完成 WARC 解析、乱码修复及通用格式转化;存量数据标准化:完成 baidu 小说数据 20230176~20230183、20230185 (9个包) 处理,解决 OOM 问题 | | 南山居士 | Reddit 专项:完成三批 Reddit 数据处理,解决 JSON 解码、数据重复及 HTML 转化问题;存量数据标准化:完成 20230114 数据包 (含 Zlibrary、Txtsk、金融知道) 的标准化 | | 熊熊 | 存量数据标准化:完成 Wudao (20230117-0123)、Z-library (20230109, 0110, 0124)、Txtsk (20230113)、混合数据包 20230127/0128;工具优化:负责 DataChecker、DataClean、语料标准格式等基建工作维护 | | Mark | 微博数据:完成微博数据处理和统计、去重及 0 回复过滤,解决转发主体识别问题;图书数据:负责知轩网图书数据处理,修复 Simhash 重复检测 Bug | | 6子 | 学术论文:完成 Hanspub 中文论文处理;处理 NeurIPS 论文及审稿意见并转为多模态数据;语种统计:完成美国之音 (VOA) 语料语种与比例统计 | | Final | 邮件语料:完成希拉里邮件数据处理,解决正则匹配、邮件重复及回复关系还原问题 | | 花火火 | 论坛语料:负责最新里屋论坛数据的解析与处理代码编写 | | 等战 | 代码修复:负责 Hacker News 故障数据源的重新获取 (JSONL 格式) 与初步解析 |