用户工具

站点工具


sjqx

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
sjqx [2023/07/02 17:35] – 创建 MNBVC项目组sjqx [2023/10/03 00:26] (当前版本) – [小组成果] MNBVC项目组
行 1: 行 1:
 ===== 数据清洗组目标 ===== ===== 数据清洗组目标 =====
 进行无损的数据清洗,例如数据去重,数据质量打分等。方便算法同学根据数据标签快速过滤出自己需要的数据。 进行无损的数据清洗,例如数据去重,数据质量打分等。方便算法同学根据数据标签快速过滤出自己需要的数据。
 +本小组和语料增强小组的区别是,本小组只打标签,不破坏语料本身,语料增强小组会直接修改语料。
  
 ===== 小组任务 ===== ===== 小组任务 =====
  
 +  - 语料去重 
 +    * 清除从不同来源提交给MNBVC项目的文件中,文件完全一致的【已完成】。 
 +    * 找出不同来源,不同渠道导致有细微差别的同一文件,并打上标签,如在不同盗版网站上的同一个小说【已完成】。 
 +    * 通过Word2Vec或Sentence2Vec将语料在句子层面进行向量聚类,找到重复率较高的句子,进行人工或深度学习进行分类,生成政治敏感,色情,广告等黑名单【待进行】。 
 +    * 清洗语料中较长的内部重复,或内部重复出现较多次的情况【待进行】。 
 +  - 网页语料清洗 
 +    * 基于规则对commoncrawl数据做初步清洗,包括:【已完成】 
 +      * 过滤页眉页脚,标签栏等 
 +      * 过滤乱码 
 +      * 不相关的网页标识符 
 +      * 过滤中文占比<70%的网页 
 +      * 过滤中文字符少于10个的段落 
 +      * 敏感词过滤带有脏话、色情、赌博等非法内容的页面 
 +      * 从数据集中删除隐私内容,如身份证号、电话号码、qq号码、电子邮件地址 
 +      * 截断段落的最后一句没有结束标点的句子 
 +      * 繁体转简体 
 +      * 删除了每个句子中的所有多余空格和标点 
 +      * 用空格替换句子中连续空白字符(即选项卡、空格、不可见字符等) 
 +    * 收集正负样本训练fasttext,对低质量文本进行分类,主要去除了赌博广告,色情广告等【已完成】 
 +    * 基于规则对wudao数据进行清洗,收集wudao正负样本作为低质量语料数据,目前优化中【进行中】 
 +  - 小说数据清洗,目前基本清洗完成 
 +    * 基于规则进行清洗 【已完成】 
 +      * 去除连载小说各小节前后与内容不相关的作者的碎碎念 
 +      * 去除小说网站的插入广告 
 +      * 去除特殊字符 
 +      * 去除中文占比低的段落 
 +      * 去除编码异常段落
 ===== 小组成果 ===== ===== 小组成果 =====
 +语料去重:
 +https://github.com/aplmikex/deduplication_mnbvc\\
 +低质量文本分类:https://github.com/Mythos-Rudy/mnbvc-fasttext-classification
  
sjqx.1688290536.txt.gz · 最后更改: 2023/07/02 17:35 由 MNBVC项目组