单个字节丢失导致的gbk转换编码出错的研究
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
单个字节丢失导致的gbk转换编码出错的研究 [2023/12/05 15:20] – 创建 MNBVC项目组 | 单个字节丢失导致的gbk转换编码出错的研究 [2023/12/05 15:21] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 3: | 行 3: | ||
==== 案例1: ==== | ==== 案例1: ==== | ||
- | 以 20230101/ | + | '' |
如果我们用Python对它进行正常的编码转换通常都会遇到如下错误: | 如果我们用Python对它进行正常的编码转换通常都会遇到如下错误: | ||
行 9: | 行 9: | ||
**转换出错原因(GBK编码的文本中丢失单个字节导致): | **转换出错原因(GBK编码的文本中丢失单个字节导致): | ||
- | 在GBK编码的定义中,00-7F是单字节,和ASCII保持一致,此范围内有96个文字和32个控制符号。从81-FE都是双字节编码,换句话说,所有的中文汉字在GBK编码中都以双字节形式呈现。 | + | 在GBK编码的定义中,00-7F是单字节,和ASCII保持一致,此范围内有96个文字和32个控制符号。从81-FE都是双字节编码,换句话说,几乎所有的中文汉字在GBK编码中都以双字节形式呈现。 |
例如汉字 `中国人` 的GBK字节编码为 '' | 例如汉字 `中国人` 的GBK字节编码为 '' |
单个字节丢失导致的gbk转换编码出错的研究.1701760801.txt.gz · 最后更改: 2023/12/05 15:20 由 MNBVC项目组