用户工具

站点工具


utf8字符集范围

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
utf8字符集范围 [2023/09/06 14:23] MNBVC项目组utf8字符集范围 [2023/09/11 14:27] (当前版本) MNBVC项目组
行 1: 行 1:
-^ 范围 ^ 描述 ^ 备注 ^+unicode范围 ^ 描述 ^ 备注 ^
 | U0021-U0080  | 包含数字0-9,字母a-z,A-Z 空格以及常规键盘能输入的各种符号| U0080为欧元符号| | U0021-U0080  | 包含数字0-9,字母a-z,A-Z 空格以及常规键盘能输入的各种符号| U0080为欧元符号|
 | U4E00-U9FA5 | 最初期统一汉字 | 最初期共20902统一汉字  | | U4E00-U9FA5 | 最初期统一汉字 | 最初期共20902统一汉字  |
行 9: 行 9:
 | U2CEB0-U2EBEF |扩展F区汉字 | 含有7473汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字 | | U2CEB0-U2EBEF |扩展F区汉字 | 含有7473汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字 |
 | U30000-U3134A |扩展G区汉字 | 含有4939汉字,统一码13.0 | | U30000-U3134A |扩展G区汉字 | 含有4939汉字,统一码13.0 |
 +| U31350-U323AF |扩展H区汉字 | 含有4192汉字,统一码15.0 |
 | U2F800-U2FA1D |台湾的兼容汉字 | 542个汉字 | | U2F800-U2FA1D |台湾的兼容汉字 | 542个汉字 |
 | U9FA6-U9FBB |统一码4.1汉字 | 22个汉字,为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字 | | U9FA6-U9FBB |统一码4.1汉字 | 22个汉字,为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字 |
 | U9FBC-U9FC2 |统一码5.1汉字 | 7个个汉字 | | U9FBC-U9FC2 |统一码5.1汉字 | 7个个汉字 |
 | UFA70-UFAD9 |北韩的兼容汉字 | 106个汉字 | | UFA70-UFAD9 |北韩的兼容汉字 | 106个汉字 |
 +| U0800-U4e00 | 日文|日文|
 +| UAC00-UD7FF | 韩文|韩文|
 +参考来源:https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97
  
 +注:
 +4字节以上的unicode需要用大写Uxxxxxxxx 表示,例如"𪜱"的unicode编码是u2A731,但是需要在匹配时写成 U0002A731,补齐四个字节,占位符用0表示。
 +
 +4字节以下用小写uxxxx表示即可,例如"㐀",即可用u3400表示
 +
 +测试代码
 +<code python>
 +import re
 +
 +ss = "𫟏𫟅𫝆𪜱㐀"
 +REGEX_FEATURE_ALL = r'[\U0002a731\u3400\U0002b746\U0002B7C5]'
 +re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
 +print(re_char_check.findall(ss))
 +
 +
 +ss_2 = "ゐ"
 +REGEX_FEATURE_ALL = r'[\u0800-\u4e00]'
 +re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
 +print(re_char_check.findall(ss_2))
 +
 +ss_3 = "한국어"
 +REGEX_FEATURE_ALL = r'[\uac00-\ud7ff]'
 +re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
 +print(re_char_check.findall(ss_3))
 +</code>
utf8字符集范围.1693981393.txt.gz · 最后更改: 2023/09/06 14:23 由 MNBVC项目组