utf8字符集范围
                差别
这里会显示出您选择的修订版和当前版本之间的差别。
| 两侧同时换到之前的修订记录前一修订版后一修订版 | 前一修订版 | ||
| utf8字符集范围 [2023/09/06 14:23] – MNBVC项目组 | utf8字符集范围 [2025/06/02 15:18] (当前版本) – 外部编辑 127.0.0.1 | ||
|---|---|---|---|
| 行 1: | 行 1: | ||
| - | ^ 范围 ^ 描述 ^ 备注 ^ | + | ^ unicode范围 ^ 描述 ^ 备注 ^ | 
| | U0021-U0080  | | U0021-U0080  | ||
| | U4E00-U9FA5 | 最初期统一汉字 | 最初期共20902统一汉字  | | U4E00-U9FA5 | 最初期统一汉字 | 最初期共20902统一汉字  | ||
| 行 9: | 行 9: | ||
| | U2CEB0-U2EBEF |扩展F区汉字 | 含有7473汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字 | | | U2CEB0-U2EBEF |扩展F区汉字 | 含有7473汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字 | | ||
| | U30000-U3134A |扩展G区汉字 | 含有4939汉字,统一码13.0 | | | U30000-U3134A |扩展G区汉字 | 含有4939汉字,统一码13.0 | | ||
| + | | U31350-U323AF |扩展H区汉字 | 含有4192汉字,统一码15.0 | | ||
| | U2F800-U2FA1D |台湾的兼容汉字 | 542个汉字 | | | U2F800-U2FA1D |台湾的兼容汉字 | 542个汉字 | | ||
| | U9FA6-U9FBB |统一码4.1汉字 | 22个汉字,为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字 | | | U9FA6-U9FBB |统一码4.1汉字 | 22个汉字,为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字 | | ||
| | U9FBC-U9FC2 |统一码5.1汉字 | 7个个汉字 | | | U9FBC-U9FC2 |统一码5.1汉字 | 7个个汉字 | | ||
| | UFA70-UFAD9 |北韩的兼容汉字 | 106个汉字 | | | UFA70-UFAD9 |北韩的兼容汉字 | 106个汉字 | | ||
| + | | U0800-U4e00 | 日文|日文| | ||
| + | | UAC00-UD7FF | 韩文|韩文| | ||
| + | 参考来源: | ||
| + | 注: | ||
| + | 4字节以上的unicode需要用大写Uxxxxxxxx 表示,例如" | ||
| + | |||
| + | 4字节以下用小写uxxxx表示即可,例如" | ||
| + | |||
| + | 测试代码 | ||
| + | <code python> | ||
| + | import re | ||
| + | |||
| + | ss = " | ||
| + | REGEX_FEATURE_ALL = r' | ||
| + | re_char_check = re.compile(REGEX_FEATURE_ALL, | ||
| + | print(re_char_check.findall(ss)) | ||
| + | |||
| + | |||
| + | ss_2 = " | ||
| + | REGEX_FEATURE_ALL = r' | ||
| + | re_char_check = re.compile(REGEX_FEATURE_ALL, | ||
| + | print(re_char_check.findall(ss_2)) | ||
| + | |||
| + | ss_3 = " | ||
| + | REGEX_FEATURE_ALL = r' | ||
| + | re_char_check = re.compile(REGEX_FEATURE_ALL, | ||
| + | print(re_char_check.findall(ss_3)) | ||
| + | </ | ||
utf8字符集范围.1693981393.txt.gz · 最后更改:  (外部编辑)
                
                