简繁体转换工具
差别
这里会显示出您选择的修订版和当前版本之间的差别。
后一修订版 | 前一修订版 | ||
简繁体转换工具 [2024/11/30 21:49] – 创建 MNBVC项目组 | 简繁体转换工具 [2025/02/21 17:45] (当前版本) – [总结] MNBVC项目组 | ||
---|---|---|---|
行 1: | 行 1: | ||
- | 测试对象:open-cc和zhconv简繁体转换工具 | + | ===== 常用简繁转换工具 ===== |
+ | |||
+ | **open-cc**:[[https:// | ||
+ | |||
+ | **zhconv**:[[https:// | ||
+ | |||
+ | ===== 测试结果 ===== | ||
+ | ^转换方式^open-cc准确率^zhconv准确率^ | ||
+ | |繁体-> | ||
+ | |简体-> | ||
+ | |||
测试字符:王力《古代汉语》附录简繁体对照字表 | 测试字符:王力《古代汉语》附录简繁体对照字表 | ||
- | 测试结果: | + | |
- | (1)繁体-简体准确率:open-cc-0.8883;zhconv-0.8849 | + | |
- | (2)简体-繁体准确率:open-cc-0.9695;zhconv-0.9814 | + | |
繁体字以台湾繁体为准。 | 繁体字以台湾繁体为准。 | ||
- | 测试代码示例: | + | 测试代码示例: < |
- | from zhconv import convert | + | |
+ | | ||
+ | |||
+ | id_c_s2t = 0 | ||
+ | id_c_t2s = 0 | ||
+ | id = 0 | ||
+ | with open(" | ||
+ | lines = file.readlines() | ||
+ | for line in lines: | ||
+ | id = id + 1 | ||
+ | char_s2t = convert(line.strip()[0],' | ||
+ | if char_s2t == line.strip()[-1] or char_s2t == line.strip()[-2]: | ||
+ | id_c_s2t = id_c_s2t + 1 | ||
+ | line2 = line[0:3] | ||
+ | char_t2s = convert(line2.strip()[-1],' | ||
+ | if char_t2s == line2.strip()[0]: | ||
+ | id_c_t2s = id_c_t2s + 1 | ||
+ | # print(line.strip()[-2]) | ||
+ | |||
+ | |||
+ | pre_s2t = id_c_s2t / id | ||
+ | print(f' | ||
+ | pre_t2s = id_c_t2s / id | ||
+ | print(f' | ||
+ | </ | ||
+ | |||
+ | ===== 以下Alan调研结果 ===== | ||
+ | |||
+ | |||
+ | 1.经测试,gb2312中的6762个简体字使用zhconv可以转换为繁体字的个数为2318个(zh-tw)和2301个(zh-hk)。 | ||
+ | 2.通用字表中简繁体对应表中的数据的抽检测试数据 | ||
+ | < | ||
+ | print(zhconv.convert(" | ||
+ | print(zhconv.convert(" | ||
+ | print(zhconv.convert(" | ||
+ | print(zhconv.convert(" | ||
+ | print(zhconv.convert(" | ||
+ | print(zhconv.convert(" | ||
+ | 3.对网上开源数据找到的简繁体对应字表进行测试,有真正简繁体对应关系的个数为1733(https:// | ||
+ | |||
+ | |||
+ | |||
+ | =====总结======= | ||
+ | |||
+ | 根据《通用规范汉字表》2013版中的资料得出: | ||
+ | 当前标准汉字:8105个 | ||
+ | 具有 简、繁、异体三种对应关系的汉字:3120个 | ||
+ | 规范字对应的繁体字比例为: | ||
+ | 根据开源数据得到的简繁体对应关系文本个数为:1733 | ||
- | id_c_s2t = 0 | + | 目前的问题是至少有几百个规范字的繁体字无法正确对应: |
- | id_c_t2s = 0 | + | - 一个规范字有多个繁体字对应的情况,例如 对照表1827中的“须”字所对应两个不同的繁体字。 |
- | id = 0 | + | - 一个规范字没有繁体字对应,但有多个异体字对应的情况,这些异体字在不同的语料资料中都有可能作为该规范字的繁体字表达。例如1578 “俊” 字所对应的两个不同的异体字 |
- | with open(" | + | - 一个规范字既有繁体字也有异体字对应的情况。对照表 1770的“艳”字,包含一个繁体字和两个异体字 |
- | lines = file.readlines() | + | |
- | for line in lines: | + | |
- | id = id + 1 | + | |
- | char_s2t = convert(line.strip()[0],' | + | |
- | if char_s2t == line.strip()[-1] or char_s2t == line.strip()[-2]: | + | |
- | id_c_s2t = id_c_s2t + 1 | + | |
- | line2 = line[0:3] | + | |
- | char_t2s = convert(line2.strip()[-1],' | + | |
- | if char_t2s == line2.strip()[0]: | + | |
- | id_c_t2s = id_c_t2s + 1 | + | |
- | # print(line.strip()[-2]) | + | |
+ | |||
- | pre_s2t = id_c_s2t / id | ||
- | print(f' | ||
- | pre_t2s = id_c_t2s / id | ||
- | print(f' |
简繁体转换工具.1732974566.txt.gz · 最后更改: 2024/11/30 21:49 由 MNBVC项目组