用户工具

站点工具


cjk中文需求

全部转换成utf-8之后的语料,判断其是否为简体中文。

  1. 去除掉中文常用符号范围内的字符,不作为阈值比较。
  2. 判断简体中文加英文的比例大于95%。
  3. 95-99%之间的数据误差,人眼核对。
cjk中文需求.txt · 最后更改: 2024/04/20 21:23 由 MNBVC项目组