用户工具

站点工具


简繁体转换工具

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
简繁体转换工具 [2025/01/03 16:30] MNBVC项目组简繁体转换工具 [2025/02/21 17:45] (当前版本) – [总结] MNBVC项目组
行 55: 行 55:
     print(zhconv.convert("耻", 'zh-tw')) # 异体字</code>     print(zhconv.convert("耻", 'zh-tw')) # 异体字</code>
 3.对网上开源数据找到的简繁体对应字表进行测试,有真正简繁体对应关系的个数为1733(https://raw.githubusercontent.com/lqfeng/ChineseCharacters/refs/heads/master/%E4%B8%AD%E6%96%87%E7%B9%81%E7%AE%80%E4%BD%93%E5%AD%97%E7%AC%A6%E5%AF%B9%E7%85%A7%E8%A1%A8.txt) 该数据误差较大,需要想办法修正此字表数据 3.对网上开源数据找到的简繁体对应字表进行测试,有真正简繁体对应关系的个数为1733(https://raw.githubusercontent.com/lqfeng/ChineseCharacters/refs/heads/master/%E4%B8%AD%E6%96%87%E7%B9%81%E7%AE%80%E4%BD%93%E5%AD%97%E7%AC%A6%E5%AF%B9%E7%85%A7%E8%A1%A8.txt) 该数据误差较大,需要想办法修正此字表数据
 +
 +
 +
 +=====总结=======
 +
 +根据《通用规范汉字表》2013版中的资料得出:
 +当前标准汉字:8105个
 +具有 简、繁、异体三种对应关系的汉字:3120个
 +规范字对应的繁体字比例为: 2546:2574
 +根据开源数据得到的简繁体对应关系文本个数为:1733
 +
 +目前的问题是至少有几百个规范字的繁体字无法正确对应:
 +  - 一个规范字有多个繁体字对应的情况,例如 对照表1827中的“须”字所对应两个不同的繁体字。 
 +  - 一个规范字没有繁体字对应,但有多个异体字对应的情况,这些异体字在不同的语料资料中都有可能作为该规范字的繁体字表达。例如1578 “俊” 字所对应的两个不同的异体字
 +  - 一个规范字既有繁体字也有异体字对应的情况。对照表 1770的“艳”字,包含一个繁体字和两个异体字
 +
 + 
 +
简繁体转换工具.1735893029.txt.gz · 最后更改: 2025/01/03 16:30 由 MNBVC项目组