===== 语料增强小组目标 ===== 对原始语料进行直接修改处理,例如转码成utf8、脱敏手机号、删除版权广告等信息。 本小组和数据清洗小组的区别是,本小组会直接修改语料,数据清洗小组只打标签,不直接修改语料。 ===== 小组任务 ===== 当前只列出急需解决的任务 - [[列举所有编码名称集合和MNBVC需要检测和转换的编码名称集合]] - [[设计并讨论新的编码检测机制]] - [[重构常规编码检测机制]] - [[建立PPL小模型用于编码检测]] - [[将所有unicode控制符加入筛选判断]] - [[添加基于Python CP936的支持]] - [[添加给予Python CP950的支持]] - [[添加基于Python CP960的支持]] - [[处理文本中故意加入干扰混淆的数据]] ===== 小组成果 ===== 编码检测和转换工具:https://github.com/alanshi/charset_mnbvc 版权和广告信息识别样本和工具: https://github.com/alanshi/chaos_dataset_mnbvc/tree/master/adcleaner [[Github Codespaces使用教程说明]] ===== 乱码分析 ===== - [[GBK 欧元符号的兼容性问题]] - [[GBK 乱码合集]] - [[BIG5 兼容性问题]] - [[短文本无法正确检测编码的问题]] - [[windows-936-2000编码问题]] - [[锟斤拷的问题]] - [[GBK和UTF8互转出现的问题]] - [[单个字节丢失导致的GBK转换编码出错的研究]] - [[Linux环境下file命令的magic文件的内容解析]] ===== 编码常识 ===== - UTF8,UTF16,UTF32的区别 - [[UTF8字符集范围]] - [[UNICODE控制符范围]] - [[CJK中日韩越共用汉字]] - [[中文标点符号字符集范围]] - [[CJK符号范围]] - [[ASCII字符范围]] ===== 工具调研 ===== - [[icu]] - [[CJK中文需求]]