utf8字符集范围
unicode范围 | 描述 | 备注 |
---|---|---|
U0021-U0080 | 包含数字0-9,字母a-z,A-Z 空格以及常规键盘能输入的各种符号 | U0080为欧元符号 |
U4E00-U9FA5 | 最初期统一汉字 | 最初期共20902统一汉字 |
U3400-U4DBF | 扩展A区汉字 | 含有6592汉字 |
U20000-U2A6DD | 扩展B区汉字 | 含有42717汉字 |
U2A700-U2B734 | 扩展C区汉字 | 含有4149汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未编码的汉字 |
U2B740-U2B81D | 扩展D区汉字 | 含有222汉字,所谓的“急用汉字” |
U2B820-U2CEAF | 扩展E区汉字 | 含有5762汉字 |
U2CEB0-U2EBEF | 扩展F区汉字 | 含有7473汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字 |
U30000-U3134A | 扩展G区汉字 | 含有4939汉字,统一码13.0 |
U31350-U323AF | 扩展H区汉字 | 含有4192汉字,统一码15.0 |
U2F800-U2FA1D | 台湾的兼容汉字 | 542个汉字 |
U9FA6-U9FBB | 统一码4.1汉字 | 22个汉字,为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字 |
U9FBC-U9FC2 | 统一码5.1汉字 | 7个个汉字 |
UFA70-UFAD9 | 北韩的兼容汉字 | 106个汉字 |
U0800-U4e00 | 日文 | 日文 |
UAC00-UD7FF | 韩文 | 韩文 |
注: 4字节以上的unicode需要用大写Uxxxxxxxx 表示,例如“𪜱”的unicode编码是u2A731,但是需要在匹配时写成 U0002A731,补齐四个字节,占位符用0表示。
4字节以下用小写uxxxx表示即可,例如“㐀”,即可用u3400表示
测试代码
import re ss = "𫟏𫟅𫝆𪜱㐀" REGEX_FEATURE_ALL = r'[\U0002a731\u3400\U0002b746\U0002B7C5]' re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE) print(re_char_check.findall(ss)) ss_2 = "ゐ" REGEX_FEATURE_ALL = r'[\u0800-\u4e00]' re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE) print(re_char_check.findall(ss_2)) ss_3 = "한국어" REGEX_FEATURE_ALL = r'[\uac00-\ud7ff]' re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE) print(re_char_check.findall(ss_3))
utf8字符集范围.txt · 最后更改: 2023/09/11 14:27 由 MNBVC项目组