用户工具

站点工具


踩坑记录:20230727里屋论坛数据存在乱码

里屋论坛数据存在乱码

背景

需要把 里屋论坛 的数据转化为jsonl的格式存入mnbvc数据集中。

经过

在里屋数据库导出的帖子中,发现存在\u200e以及\u200f这种unicode乱码(或许可以识别,但是我的vscode报红),在里屋论坛上找到原始帖子的html源码,发现该地存在‎以及\rlm;这样的html转义字符。

结果

python做一个简单的测试: import html print(html.unescape('‎'))

输出为\u000e,发现是因为html的特殊转义字符无法识别编码。 所以过滤掉所有\u200e以及\u200f字符

踩坑记录/20230727里屋论坛数据存在乱码.txt · 最后更改: 2023/07/28 17:39 由 Linglingfa