用户工具

站点工具


语料增强小组2024年年度总结

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

语料增强小组2024年年度总结 [2025/03/14 16:33] – 创建 MNBVC项目组语料增强小组2024年年度总结 [2025/03/14 16:33] (当前版本) MNBVC项目组
行 2: 行 2:
  
  
-    本小组今年的工作主要重心从去年的编码检测转换,乱码问题研究转换为了标准中文字符范围研究上+本小组今年的工作主要重心从去年的编码检测转换,乱码问题研究转换为了标准中文字符范围研究上
  
  
行 8: 行 8:
  
  
-    1: 提供了标准中英文数据检测接口(api.check_zh_en) ,该接口提供了完整标准的简体中文和英文字母,各类标点符号,常见特殊符号的检测能力。为MNBVC语料中的简体中文,纯英文资料提供了准确的检测能力。+1: 提供了标准中英文数据检测接口(api.check_zh_en) ,该接口提供了完整标准的简体中文和英文字母,各类标点符号,常见特殊符号的检测能力。为MNBVC语料中的简体中文,纯英文资料提供了准确的检测能力。
  
 +2: 由于在工作中需要判断大量文件是否为纯文本文档,因此我们有了对二进制文件判断的需求,经过调研目前最终确定了采用magic number的机制来判断文件是否为二进制格式,将来会将其封装在mnbvc_charset库内(当前的 api.is_binary 接口只基于扩展名进行了判断,不够完善,建议暂不使用)。
  
-    2工作中需要判断大量文件是否为纯文本文档因此我们有了对二进制文件需求,经过调研目前最终定了采用magic number的机制来判断文件是否为二进制格式将来会将其封装mnbvc_charset库(当前的 api.is_binary 接口只基于扩展名进行了判断,不够善,建议暂不使用)+3标准简繁体字对照表进行标准简繁体转换工具的测试工作,以便定当前简繁体转换开源库的准该工作
  
- +4: 提供pre_check.py 用于对文本文件进行编码检测和转换的预检查工作。
-    3: 基于标准简繁体字对照表进行标准简繁体转换工具的测试工作,以便判定当前的简繁体转换开源库的准确率,该工作在年内会完成。 +
- +
- +
-    4: 提供pre_check.py 用于对文本文件进行编码检测和转换的预检查工作。+
  
  
行 23: 行 20:
  
  
-    本小组因为组长长期不在线,摸鱼旷工(记打五十大板),很多工作都由组员们辛劳分担了,在此要特别感谢塞北的雪(Ambrose)、云中君(Magican)、花花、yuchen、柚子、冰糖橘子水等诸位同学的努力和付出。+本小组因为组长长期不在线,摸鱼旷工(记打五十大板),很多工作都由组员们辛劳分担了,在此要特别感谢塞北的雪(Ambrose)、云中君(Magican)、花花、yuchen、柚子、冰糖橘子水等诸位同学的努力和付出。
  
  
行 32: 行 29:
  
  
-    本小组明年会继续在标准简繁体中文字符范围、编码检测效率、文件类型判定等诸多方面继续努力,希望有更多的朋友加入本小组,一起为MNBVC项目发光发热,添砖加瓦。+本小组明年会继续在标准简繁体中文字符范围、编码检测效率、文件类型判定等诸多方面继续努力,希望有更多的朋友加入本小组,一起为MNBVC项目发光发热,添砖加瓦。
语料增强小组2024年年度总结.1741941187.txt.gz · 最后更改: 2025/03/14 16:33 由 MNBVC项目组