单个字节丢失导致的gbk--_utf8出错的研究
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版 | |||
单个字节丢失导致的gbk--_utf8出错的研究 [2023/12/05 15:01] – MNBVC项目组 | 单个字节丢失导致的gbk--_utf8出错的研究 [2023/12/05 15:01] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 36: | 行 36: | ||
- | 我们可以很清楚的看到这段文本因为errors=" | + | 我们可以很清楚的看到这段文本因为 |
为什么很多GBK文本出现一次或者多次单个字节丢失的情况我们还不得而知,不过基于以上的研究,我们可以设计一个新的编码识别转换的方法,就是想办法正确的标记单个字节丢失的真正位置,再交由人工进行识别处理,并借助其他自动化或者AI工具 ,补全这些字符。 | 为什么很多GBK文本出现一次或者多次单个字节丢失的情况我们还不得而知,不过基于以上的研究,我们可以设计一个新的编码识别转换的方法,就是想办法正确的标记单个字节丢失的真正位置,再交由人工进行识别处理,并借助其他自动化或者AI工具 ,补全这些字符。 |
单个字节丢失导致的gbk--_utf8出错的研究.1701759671.txt.gz · 最后更改: 2023/12/05 15:01 由 MNBVC项目组