用户工具

站点工具


单个字节丢失导致的gbk--_utf8出错的研究

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
单个字节丢失导致的gbk--_utf8出错的研究 [2023/12/05 15:01] MNBVC项目组单个字节丢失导致的gbk--_utf8出错的研究 [2023/12/05 15:01] (当前版本) MNBVC项目组
行 36: 行 36:
  
  
-我们可以很清楚的看到这段文本因为errors="ignore" 的作用,会跳过识别错误的单字节,把后续的字节尽量按GBK编码的方式识别,但是早已经丢失了原意,这也是因为该段落文本中出现单个字节丢失的原因导致的。+我们可以很清楚的看到这段文本因为 ''errors="ignore"'' 的作用,会跳过识别错误的单字节,把后续的字节尽量按GBK编码的方式识别,但是早已经丢失了原意,这也是因为该段落文本中出现单个字节丢失的原因导致的。
  
 为什么很多GBK文本出现一次或者多次单个字节丢失的情况我们还不得而知,不过基于以上的研究,我们可以设计一个新的编码识别转换的方法,就是想办法正确的标记单个字节丢失的真正位置,再交由人工进行识别处理,并借助其他自动化或者AI工具 ,补全这些字符。 为什么很多GBK文本出现一次或者多次单个字节丢失的情况我们还不得而知,不过基于以上的研究,我们可以设计一个新的编码识别转换的方法,就是想办法正确的标记单个字节丢失的真正位置,再交由人工进行识别处理,并借助其他自动化或者AI工具 ,补全这些字符。
单个字节丢失导致的gbk--_utf8出错的研究.1701759671.txt.gz · 最后更改: 2023/12/05 15:01 由 MNBVC项目组