MNBVC-Wiki

这是本文档旧的修订版！

unicode范围	描述	备注
U0021-U0080	包含数字0-9，字母a-z,A-Z 空格以及常规键盘能输入的各种符号	U0080为欧元符号
U4E00－U9FA5	最初期统一汉字	最初期共20902统一汉字
U3400－U4DBF	扩展A区汉字	含有6592汉字
U20000－U2A6DD	扩展B区汉字	含有42717汉字
U2A700－U2B734	扩展C区汉字	含有4149汉字，包括来自中国大陆、澳门、台湾、日本、越南等尚未编码的汉字
U2B740－U2B81D	扩展D区汉字	含有222汉字，所谓的“急用汉字”
U2B820－U2CEAF	扩展E区汉字	含有5762汉字
U2CEB0－U2EBEF	扩展F区汉字	含有7473汉字，主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字
U30000－U3134A	扩展G区汉字	含有4939汉字，统一码13.0
U31350－U323AF	扩展H区汉字	含有4192汉字，统一码15.0
U2F800－U2FA1D	台湾的兼容汉字	542个汉字
U9FA6－U9FBB	统一码4.1汉字	22个汉字，为使统一码向下兼容GB 18030和香港增补字符集（HKSCS）的所有汉字
U9FBC－U9FC2	统一码5.1汉字	7个个汉字
UFA70－UFAD9	北韩的兼容汉字	106个汉字

已知问题: 很多字符无法被匹配，例如以下例子，𪜱的unicode是u2A731，㐀是u3400，但是𪜱无法被找到，㐀可以，还需要再查明原因

import re
from re import compile
REGEX_FEATURE_ALL = r'[\u2A731\u3400]'
re_char_check = compile(REGEX_FEATURE_ALL, re.IGNORECASE)
print(re_char_check.findall("𪜱㐀"))