用户工具

站点工具


utf8字符集范围

这是本文档旧的修订版!


unicode范围 描述 备注
U0021-U0080 包含数字0-9,字母a-z,A-Z 空格以及常规键盘能输入的各种符号 U0080为欧元符号
U4E00-U9FA5 最初期统一汉字 最初期共20902统一汉字
U3400-U4DBF 扩展A区汉字 含有6592汉字
U20000-U2A6DD 扩展B区汉字 含有42717汉字
U2A700-U2B734 扩展C区汉字 含有4149汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未编码的汉字
U2B740-U2B81D 扩展D区汉字 含有222汉字,所谓的“急用汉字”
U2B820-U2CEAF 扩展E区汉字 含有5762汉字
U2CEB0-U2EBEF 扩展F区汉字 含有7473汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字
U30000-U3134A 扩展G区汉字 含有4939汉字,统一码13.0
U31350-U323AF 扩展H区汉字 含有4192汉字,统一码15.0
U2F800-U2FA1D 台湾的兼容汉字 542个汉字
U9FA6-U9FBB 统一码4.1汉字 22个汉字,为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字
U9FBC-U9FC2 统一码5.1汉字 7个个汉字
UFA70-UFAD9 北韩的兼容汉字 106个汉字

已知问题: 很多字符无法被匹配,例如以下例子,𪜱的unicode是u2A731,㐀是u3400,但是𪜱无法被找到,㐀可以,还需要再查明原因

import re
from re import compile
REGEX_FEATURE_ALL = r'[\u2A731\u3400]'
re_char_check = compile(REGEX_FEATURE_ALL, re.IGNORECASE)
print(re_char_check.findall("𪜱㐀"))
utf8字符集范围.1693984573.txt.gz · 最后更改: 2023/09/06 15:16 由 MNBVC项目组