==== 里屋论坛数据存在乱码==== === 背景 === 需要把[[liwu:liwu | 里屋论坛]] 的数据转化为jsonl的格式存入mnbvc数据集中。 === 经过 === 在里屋数据库导出的帖子中,发现存在\u200e以及\u200f这种unicode乱码(或许可以识别,但是我的vscode报红),在里屋论坛上找到原始帖子的html源码,发现该地存在‎以及\rlm;这样的html转义字符。 === 结果 === python做一个简单的测试: ''import html print(html.unescape('‎'))'' 输出为\u000e,发现是因为html的特殊转义字符无法识别编码。 所以过滤掉所有\u200e以及\u200f字符