全部转换成utf-8之后的语料,判断其是否为简体中文。
去除掉中文常用符号范围内的字符,不作为阈值比较。
判断简体中文加英文的比例大于95%。
95-99%之间的数据误差,人眼核对。