数据清洗小组以构建高多样性,高质量的纯文本语料为目标,围绕多种领域和格式的数据清洗、转换、去重、格式统一等任务展开工作,将其转换成项目组标准的语料格式,为开源项目提供了重要的基础数据支持。
一年内,处理了数十个不同格式和来源的语料集,总计提供了数TB的语料数据。这些语料数据来自论坛、博客、wiki站点、专利、邮件、法律、社交媒体、金融领域和其他开源数据等多种来源,数据多样性非常丰富。针对多个来源的重叠数据,开展了去重工作。如裁判文书网、Reddit数据等的多批次比较和去重处理,显著提高了语料的独特性和一致性。
其次,小组处理了各类复杂数据类型,包括epub、html、数据库、ware、txt、EML、js、接json,积累了不少不同格式处理的经验和代码,并做了一些经验分享,如笑将的epub数据处理经验,小组内ware的数据处理经验,熊熊的多模态数据分享等。
此外,参与制定和完善mnbvc各类语料格式,实现了多源数据的标准化存储,支持了后续数据的高效使用和去重等操作。组内也开发了多种数据处理脚本和工具,提升了处理效率。如南山居士编写的tigerbot和telechat数据处理脚本、花火火开发的解压代码等,另外在不同的任务上,小组成员间也会互相分享代码和经验,提高了小组的工作效率。
小组成员非常给力,完成了众多非常有价值的工作,为中国自己的开源语料集做出了众多贡献,非常感谢组员们的努力和辛苦。
笑将: - 神秘岛论坛数据处理为论坛语料格式,已完成 - 多种epub数据处理为MNBVC与语料格式,已完成:笔趣网,阿里云开发者社区,喜爱破解,好奇心日报,作文网,网络安全相关书籍,IT博客2023,mbalib百科,AI博客2022 - 裁判文书网数据处理,清洗乱码数据,合并去重两份不同来源的数据
南山居士: - tigerbot数据处理,将tigerbo数据转存为mnbvc数据格式 - 完成电信telechat数据处理代码脚本,将telechat数据转存为mnbvc数据格式 - 完成数据库格式的Reddit数据处理完成,处理为论坛语料格式 - 第二批warc Reddit数据尝试解码并处理为论坛语料格式,并与之前数据去重(进行中) - 第三批warc Reddit数据尝试解码并处理为论坛语料格式,并与之前数据去重(进行中)
夏月: - 完成dokuwiki数据处理,处理为通用语料格式。并检查萌娘百科,fgp百科为纯图数据 - 完成多个网站(aplwiki,archivetram_tracker_wiki,esinitiative等)wiki站点的数据处理,待进行乱码数据验证 - 金融领域数据处理并和之前去重- 蚂蚁财经 - 金融领域数据处理并和之前去重- 轩辕财经 - 谷歌专利数据处理为通用文本语料(进行中)
吉国: - 殆知阁数据处理为通用文本语料 - 中国科学技术研究所提供的书籍数据处理,解决不同文件的编码问题,处理成通用语料格式 - 希拉里邮件数据非邮件格式,重新获取数据源,确认了希拉里邮件意义不大,丢弃任务 - 一批大批量的邮件数据处理处理成论坛语料格式(待处理)
Happen: - SkyPile 数据转存为为mnbvc的标准语料格式 - 马克思主义论坛数据处理为通用文本语料 - warc 格式网易博客数据处理,博客评论抓取到,处理为通用语料格式 - Twitter ware数据处理,区分多模态和纯文本数据,将纯文本处理为通用语料格式,多模态交给多模态小组(搁置中)
花火火: - 微软数据处理,微软问答数据已解析源文件,提取文本信息,正在整理数据格式问题(待处理)
avaritia: - SCP 基金会已解析源文件,提取文本信息,处理成通用语料格式 - ch8论坛经检查,都是图文数据,转给多模态小组处理
AK_liang: - Emath 论坛数据处理为论坛语料格式
纸飞机: - 优秀闭站博客数据处理blogspot,WordPress,codex(进行中)