简繁体转换工具
常用简繁转换工具
测试结果
转换方式 | open-cc准确率 | zhconv准确率 |
---|---|---|
繁体→简体 | 0.8883 | 0.8849 |
简体→繁体 | 0.9695 | 0.9814 |
测试字符:王力《古代汉语》附录简繁体对照字表
繁体字以台湾繁体为准。
测试代码示例:
from zhconv import convert id_c_s2t = 0 id_c_t2s = 0 id = 0 with open("characters.txt", "r",encoding='utf-8') as file: lines = file.readlines() for line in lines: id = id + 1 char_s2t = convert(line.strip()[0],'zh-tw') if char_s2t == line.strip()[-1] or char_s2t == line.strip()[-2]: id_c_s2t = id_c_s2t + 1 line2 = line[0:3] char_t2s = convert(line2.strip()[-1],'zh-cn') if char_t2s == line2.strip()[0]: id_c_t2s = id_c_t2s + 1 # print(line.strip()[-2]) pre_s2t = id_c_s2t / id print(f'pre_s2t={pre_s2t}\n') pre_t2s = id_c_t2s / id print(f'pre_t2s={pre_t2s}\n')
以下Alan调研结果
1.经测试,gb2312中的6762个简体字使用zhconv可以转换为繁体字的个数为2318个(zh-tw)和2301个(zh-hk)。 2.通用字表中简繁体对应表中的数据的抽检测试数据
print(zhconv.convert("临", 'zh-tw')) # 正常繁体字 print(zhconv.convert("鸦", 'zh-tw')) # 正常繁体字 print(zhconv.convert("冒", 'zh-tw')) # nothing,有异体字表,但未转换 print(zhconv.convert("修", 'zh-tw')) # nothing,有异体字表,但未转换 print(zhconv.convert("迹", 'zh-tw')) # 异体字 print(zhconv.convert("洁", 'zh-tw')) # 正常繁体字 print(zhconv.convert("耻", 'zh-tw')) # 异体字
3.对网上开源数据找到的简繁体对应字表进行测试,有真正简繁体对应关系的个数为1733(https://raw.githubusercontent.com/lqfeng/ChineseCharacters/refs/heads/master/%E4%B8%AD%E6%96%87%E7%B9%81%E7%AE%80%E4%BD%93%E5%AD%97%E7%AC%A6%E5%AF%B9%E7%85%A7%E8%A1%A8.txt) 该数据误差较大,需要想办法修正此字表数据
简繁体转换工具.txt · 最后更改: 2025/01/03 16:30 由 MNBVC项目组