语料增强小组2024年年度总结
差别
这里会显示出您选择的修订版和当前版本之间的差别。
语料增强小组2024年年度总结 [2025/03/14 16:33] – 创建 MNBVC项目组 | 语料增强小组2024年年度总结 [2025/03/14 16:33] (当前版本) – MNBVC项目组 | ||
---|---|---|---|
行 2: | 行 2: | ||
- | | + | 本小组今年的工作主要重心从去年的编码检测转换,乱码问题研究转换为了标准中文字符范围研究上 |
行 8: | 行 8: | ||
- | | + | 1: 提供了标准中英文数据检测接口(api.check_zh_en) , |
+ | 2: 由于在工作中需要判断大量文件是否为纯文本文档,因此我们有了对二进制文件判断的需求,经过调研目前最终确定了采用magic number的机制来判断文件是否为二进制格式,将来会将其封装在mnbvc_charset库内(当前的 api.is_binary 接口只基于扩展名进行了判断,不够完善,建议暂不使用)。 | ||
- | 2: 由于在工作中需要判断大量文件是否为纯文本文档,因此我们有了对二进制文件判断的需求,经过调研目前最终确定了采用magic number的机制来判断文件是否为二进制格式,将来会将其封装在mnbvc_charset库内(当前的 api.is_binary 接口只基于扩展名进行了判断,不够完善,建议暂不使用)。 | + | 3: 基于标准简繁体字对照表进行标准简繁体转换工具的测试工作,以便判定当前的简繁体转换开源库的准确率,该工作在年内会完成。 |
- | + | 4: 提供pre_check.py 用于对文本文件进行编码检测和转换的预检查工作。 | |
- | 3: 基于标准简繁体字对照表进行标准简繁体转换工具的测试工作,以便判定当前的简繁体转换开源库的准确率,该工作在年内会完成。 | + | |
- | + | ||
- | + | ||
- | | + | |
行 23: | 行 20: | ||
- | | + | 本小组因为组长长期不在线,摸鱼旷工(记打五十大板),很多工作都由组员们辛劳分担了,在此要特别感谢塞北的雪(Ambrose)、云中君(Magican)、花花、yuchen、柚子、冰糖橘子水等诸位同学的努力和付出。 |
行 32: | 行 29: | ||
- | | + | 本小组明年会继续在标准简繁体中文字符范围、编码检测效率、文件类型判定等诸多方面继续努力,希望有更多的朋友加入本小组,一起为MNBVC项目发光发热,添砖加瓦。 |
语料增强小组2024年年度总结.1741941187.txt.gz · 最后更改: 2025/03/14 16:33 由 MNBVC项目组