用户工具

站点工具


单个字节丢失导致的gbk转换编码出错的研究

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
单个字节丢失导致的gbk转换编码出错的研究 [2023/12/05 15:20] MNBVC项目组单个字节丢失导致的gbk转换编码出错的研究 [2023/12/05 15:21] (当前版本) MNBVC项目组
行 3: 行 3:
 ==== 案例1: ==== ==== 案例1: ====
  
-以 20230101/aliyun.20230101.8.武侠小说/1184.txt 第563行为例:+''以 20230101/aliyun.20230101.8.武侠小说/1184.txt 第563行为例''
  
 如果我们用Python对它进行正常的编码转换通常都会遇到如下错误: //UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 46: illegal multibyte sequence//, 这正是由于文本中单个字节丢失导致的。 如果我们用Python对它进行正常的编码转换通常都会遇到如下错误: //UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 46: illegal multibyte sequence//, 这正是由于文本中单个字节丢失导致的。
单个字节丢失导致的gbk转换编码出错的研究.1701760831.txt.gz · 最后更改: 2023/12/05 15:20 由 MNBVC项目组