全部转换成utf-8之后的语料,判断其是否为简体中文。 - 去除掉中文常用符号范围内的字符,不作为阈值比较。 - 判断简体中文加英文的比例大于95%。 - 95-99%之间的数据误差,人眼核对。