跳至内容
MNBVC-Wiki
用户工具
登录
站点工具
搜索
工具
显示页面
过去修订
反向链接
最近更改
媒体管理器
网站地图
登录
>
最近更改
媒体管理器
网站地图
您的足迹:
踩坑记录:20230727里屋论坛数据存在乱码
本页面只读。您可以查看源文件,但不能更改它。如果您觉得这是系统错误,请联系管理员。
==== 里屋论坛数据存在乱码==== === 背景 === 需要把[[liwu:liwu | 里屋论坛]] 的数据转化为jsonl的格式存入mnbvc数据集中。 === 经过 === 在里屋数据库导出的帖子中,发现存在\u200e以及\u200f这种unicode乱码(或许可以识别,但是我的vscode报红),在里屋论坛上找到原始帖子的html源码,发现该地存在‎以及\rlm;这样的html转义字符。 === 结果 === python做一个简单的测试: ''import html print(html.unescape('‎'))'' 输出为\u000e,发现是因为html的特殊转义字符无法识别编码。 所以过滤掉所有\u200e以及\u200f字符
踩坑记录/20230727里屋论坛数据存在乱码.txt
· 最后更改: 2023/07/28 17:39 由
Linglingfa
页面工具
显示页面
过去修订
反向链接
回到顶部