一、工作概述

数据清洗小组以构建高多样性，高质量的纯文本语料为目标，围绕多种领域和格式的数据清洗、转换、去重、格式统一等任务展开工作，将其转换成项目组标准的语料格式，为开源项目提供了重要的基础数据支持。

二、工作内容与成果

一年内，处理了数十个不同格式和来源的语料集，总计提供了数TB的语料数据。这些语料数据来自论坛、博客、wiki站点、专利、邮件、法律、社交媒体、金融领域和其他开源数据等多种来源，数据多样性非常丰富。针对多个来源的重叠数据，开展了去重工作。如裁判文书网、Reddit数据等的多批次比较和去重处理，显著提高了语料的独特性和一致性。

其次，小组处理了各类复杂数据类型，包括epub、html、数据库、ware、txt、EML、js、接json，积累了不少不同格式处理的经验和代码，并做了一些经验分享，如笑将的epub数据处理经验，小组内ware的数据处理经验，熊熊的多模态数据分享等。

此外，参与制定和完善mnbvc各类语料格式，实现了多源数据的标准化存储，支持了后续数据的高效使用和去重等操作。组内也开发了多种数据处理脚本和工具，提升了处理效率。如南山居士编写的tigerbot和telechat数据处理脚本、花火火开发的解压代码等，另外在不同的任务上，小组成员间也会互相分享代码和经验，提高了小组的工作效率。

小组成员非常给力，完成了众多非常有价值的工作，为中国自己的开源语料集做出了众多贡献，非常感谢组员们的努力和辛苦。

三、主要成员贡献

笑将： - 神秘岛论坛数据处理为论坛语料格式，已完成 - 多种epub数据处理为MNBVC与语料格式，已完成：笔趣网，阿里云开发者社区，喜爱破解，好奇心日报，作文网，网络安全相关书籍，IT博客2023，mbalib百科，AI博客2022 - 裁判文书网数据处理，清洗乱码数据，合并去重两份不同来源的数据

南山居士： - tigerbot数据处理，将tigerbo数据转存为mnbvc数据格式 - 完成电信telechat数据处理代码脚本，将telechat数据转存为mnbvc数据格式 - 完成数据库格式的Reddit数据处理完成，处理为论坛语料格式 - 第二批warc Reddit数据尝试解码并处理为论坛语料格式，并与之前数据去重（进行中） - 第三批warc Reddit数据尝试解码并处理为论坛语料格式，并与之前数据去重（进行中）

夏月： - 完成dokuwiki数据处理，处理为通用语料格式。并检查萌娘百科，fgp百科为纯图数据 - 完成多个网站（aplwiki，archivetram_tracker_wiki，esinitiative等）wiki站点的数据处理，待进行乱码数据验证 - 金融领域数据处理并和之前去重- 蚂蚁财经 - 金融领域数据处理并和之前去重- 轩辕财经 - 谷歌专利数据处理为通用文本语料（进行中）

吉国： - 殆知阁数据处理为通用文本语料 - 中国科学技术研究所提供的书籍数据处理，解决不同文件的编码问题，处理成通用语料格式 - 希拉里邮件数据非邮件格式，重新获取数据源，确认了希拉里邮件意义不大，丢弃任务 - 一批大批量的邮件数据处理处理成论坛语料格式（待处理）

Happen： - SkyPile 数据转存为为mnbvc的标准语料格式 - 马克思主义论坛数据处理为通用文本语料 - warc 格式网易博客数据处理，博客评论抓取到，处理为通用语料格式 - Twitter ware数据处理，区分多模态和纯文本数据，将纯文本处理为通用语料格式，多模态交给多模态小组（搁置中）

花火火： - 微软数据处理，微软问答数据已解析源文件，提取文本信息，正在整理数据格式问题（待处理）

avaritia： - SCP 基金会已解析源文件，提取文本信息，处理成通用语料格式 - ch8论坛经检查，都是图文数据，转给多模态小组处理

AK_liang： - Emath 论坛数据处理为论坛语料格式

纸飞机： - 优秀闭站博客数据处理blogspot，WordPress，codex（进行中）

目录

一、工作概述

二、工作内容与成果

三、主要成员贡献