ylzq
语料增强小组目标
对原始语料进行直接修改处理,例如转码成utf8、脱敏手机号、删除版权广告等信息。 本小组和数据清洗小组的区别是,本小组会直接修改语料,数据清洗小组只打标签,不直接修改语料。
小组任务
当前只列出急需解决的任务
小组成果
编码检测和转换工具:https://github.com/alanshi/charset_mnbvc
版权和广告信息识别样本和工具: https://github.com/alanshi/chaos_dataset_mnbvc/tree/master/adcleaner
乱码分析
编码常识
- UTF8,UTF16,UTF32的区别
工具调研
ylzq.txt · 最后更改: 2024/08/31 10:42 由 MNBVC项目组