用户工具

站点工具


sjqx

这是本文档旧的修订版!


数据清洗组目标

进行无损的数据清洗,例如数据去重,数据质量打分等。方便算法同学根据数据标签快速过滤出自己需要的数据。 本小组和语料增强小组的区别是,本小组只打标签,不破坏语料本身,语料增强小组会直接修改语料。

小组任务

  1. 语料去重
    • 清除从不同来源提交给MNBVC项目的文件中,文件完全一致的【已完成】。
    • 找出不同来源,不同渠道导致有细微差别的同一文件,并打上标签,如在不同盗版网站上的同一个小说【已完成】。
    • 通过Word2Vec或Sentence2Vec将语料在句子层面进行向量聚类,找到重复率较高的句子,进行人工或深度学习进行分类,生成政治敏感,色情,广告等黑名单【待进行】。
    • 清洗语料中较长的内部重复,或内部重复出现较多次的情况【待进行】。
  2. 网页语料清洗

小组成果

sjqx.1688298270.txt.gz · 最后更改: 2023/07/02 19:44 由 MNBVC项目组