utf8字符集范围

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

--- utf8字符集范围 [2023/09/06 15:16] – MNBVC项目组
+++ utf8字符集范围 [2025/06/02 15:18] (当前版本) – 外部编辑 127.0.0.1
@@ 行 14: / 行 14: @@
 | U9FBC－U9FC2 |统一码5.1汉字 | 7个个汉字 |
 | UFA70－UFAD9 |北韩的兼容汉字 | 106个汉字 |
+| U0800-U4e00 | 日文|日文|
+| UAC00-UD7FF | 韩文|韩文|
+参考来源:https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97
-已知问题:
+注:
-很多字符无法被匹配，例如以下例子，𪜱的unicode是u2A731，㐀是u3400，但是𪜱无法被找到，㐀可以，还需要再查明原因
+字节以上的unicode需要用大写Uxxxxxxxx 表示，例如"𪜱"的unicode编码是u2A731，但是需要在匹配时写成 U0002A731，补齐四个字节，占位符用0表示。
+字节以下用小写uxxxx表示即可，例如"㐀"，即可用u3400表示
+测试代码
 <code python>
 import re
-from re import compile
-REGEX_FEATURE_ALL = r'[\u2A731\u3400]'
+ss = "𫟏𫟅𫝆𪜱㐀"
-re_char_check = compile(REGEX_FEATURE_ALL, re.IGNORECASE)
+REGEX_FEATURE_ALL = r'[\U0002a731\u3400\U0002b746\U0002B7C5]'
-print(re_char_check.findall("𪜱㐀"))
+re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
+print(re_char_check.findall(ss))
+ss_2 = "ゐ"
+REGEX_FEATURE_ALL = r'[\u0800-\u4e00]'
+re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
+print(re_char_check.findall(ss_2))
+ss_3 = "한국어"
+REGEX_FEATURE_ALL = r'[\uac00-\ud7ff]'
+re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
+print(re_char_check.findall(ss_3))
 </code>

utf8字符集范围.1693984573.txt.gz · 最后更改: 2025/06/02 15:13 (外部编辑)