全部转换成utf-8之后的语料,判断其是否为简体中文。

  1. 去除掉中文常用符号范围内的字符,不作为阈值比较。
  2. 判断简体中文加英文的比例大于95%。
  3. 95-99%之间的数据误差,人眼核对。