简繁体转换工具
差别
这里会显示出您选择的修订版和当前版本之间的差别。
两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
简繁体转换工具 [2025/01/03 16:27] – MNBVC项目组 | 简繁体转换工具 [2025/02/21 17:45] (当前版本) – [总结] MNBVC项目组 | ||
---|---|---|---|
行 6: | 行 6: | ||
| | ||
===== 测试结果 ===== | ===== 测试结果 ===== | ||
+ | ^转换方式^open-cc准确率^zhconv准确率^ | ||
+ | |繁体-> | ||
+ | |简体-> | ||
- | |||
- | (1)繁体-简体准确率:open-cc-0.8883;zhconv-0.8849 | ||
- | |||
- | (2)简体-繁体准确率:open-cc-0.9695;zhconv-0.9814 | ||
测试字符:王力《古代汉语》附录简繁体对照字表 | 测试字符:王力《古代汉语》附录简繁体对照字表 | ||
行 56: | 行 55: | ||
print(zhconv.convert(" | print(zhconv.convert(" | ||
3.对网上开源数据找到的简繁体对应字表进行测试,有真正简繁体对应关系的个数为1733(https:// | 3.对网上开源数据找到的简繁体对应字表进行测试,有真正简繁体对应关系的个数为1733(https:// | ||
+ | |||
+ | |||
+ | |||
+ | =====总结======= | ||
+ | |||
+ | 根据《通用规范汉字表》2013版中的资料得出: | ||
+ | 当前标准汉字:8105个 | ||
+ | 具有 简、繁、异体三种对应关系的汉字:3120个 | ||
+ | 规范字对应的繁体字比例为: | ||
+ | 根据开源数据得到的简繁体对应关系文本个数为:1733 | ||
+ | |||
+ | 目前的问题是至少有几百个规范字的繁体字无法正确对应: | ||
+ | - 一个规范字有多个繁体字对应的情况,例如 对照表1827中的“须”字所对应两个不同的繁体字。 | ||
+ | - 一个规范字没有繁体字对应,但有多个异体字对应的情况,这些异体字在不同的语料资料中都有可能作为该规范字的繁体字表达。例如1578 “俊” 字所对应的两个不同的异体字 | ||
+ | - 一个规范字既有繁体字也有异体字对应的情况。对照表 1770的“艳”字,包含一个繁体字和两个异体字 | ||
+ | |||
+ | |||
+ |
简繁体转换工具.1735892860.txt.gz · 最后更改: 2025/01/03 16:27 由 MNBVC项目组