进行无损的数据清洗,例如数据去重,数据质量打分等。方便算法同学根据数据标签快速过滤出自己需要的数据。 本小组和语料增强小组的区别是,本小组只打标签,不破坏语料本身,语料增强小组会直接修改语料。
语料去重: https://github.com/aplmikex/deduplication_mnbvc 低质量文本分类:https://github.com/Mythos-Rudy/mnbvc-fasttext-classification