用户工具

站点工具


语料增强小组2025年终小组总结报告

这是本文档旧的修订版!


本小组2025年的工作由于组长的长期出差比较难协调人力与时间,工作重心主要集中在基础能力研究上,并为产出太多的在此本人继续深刻检讨,希望在2026年有更多的时间与精力投入,为MNBVC项目发光发热!

一、核心工作领域进展

1. 简繁体转换方案调研

为了对语料处理过程中对简体中文和繁体中文提供更加准确和完全的能力支持,我们对诸如open-cc、zhconv等简繁体转换工具进行了研究与测试,根据《通用规范汉字表》2013版中的资料作为基准的测试结果表明:gb2312中的6762个简体字使用zhconv可以转换为繁体字的个数为2318个(zh-tw)和2301个(zh-hk,对网上开源数据找到的简繁体对应字表进行测试,有真正简繁体对应关系的个数为1733。最终测试结果表明,目前至少有几百个规范字的繁体字无法正确对应。

基于该问题,我们在2025年投入了大量人力基于《通用规范汉字表》进行了人工校对,该项工作会持续在2026年继续进行,最终目标是为MNBVC项目乃至其他所有的数据处理工具提供完善,精确的简繁体对照转换工具。

2. 多语种检测能力

该项工作目的是为了对MNBVC所有语料中进行检测和识别,根据使用频率最高的字符进行语种属性识别,提升语料的处理效率。

基于mnbvc的平行语料统计常见语种的使用频率最高的前1000个字符(CJK文字可能会上千,英文或拉丁语系可能只有几十个英文字符)。注意需要去掉在不同语种当中相同的字符编码,保持每个语种每一个字符都是全局唯一编码。

这部分工作在2025年已经完成了整体设计和代码实现,不过还需要大量的时间进行测试,便于提高语种检测的准确率,预计在2026年上半年完成。

二、成员贡献汇总

感谢本组所有同学在今年对本项目做出的支持与付出

  1. 特别感谢yuchen在简繁体转换项目中的大力贡献
  2. 特别感谢promax对项目反馈的乱码问题的分析大力贡献

三、未来展望

希望有更多有志于数据集语料,文本编码以及AI相关的新技术研究的同学加入本小组,相信你在这里能得到收获。

语料增强小组2025年终小组总结报告.1769571873.txt.gz · 最后更改: MNBVC项目组