MNBVC-Wiki

这是本文档旧的修订版！

中日韩越南相同文字列表: 一,七,三,上,下,不,世,中,主,久,乘,九,事,二,五,井,亡,交,京,人,仁,今,他,仙,代,令,以,仰,伏,伐,休,位,低,住,何,佛,作,使,来,例,依,便,俗,保,信,修,个,借,假,伟,停,备,传,伤,价,亿,元,兄,充,兆,先,光,免,儿,入,内,全,两,八,公,六,共,兵,典,册,再,冬,冰,冷,出,刀,分,刑,列,初,判,别,利,到,则,前,力,功,加,助,勇,勉,动,务,胜,劳,势,勤,劝,化,北,区,十,千,午,半,卒,协,南,印,危,卷,厚,原,去,参,又,及,友,反,取,受,口,古,句,可,史,右,各,合,吉,同,名,向,君,否,吹,告,味,呼,命,和,哀,品,唱,商,问,善,喜,丧,单,严,四,回,因,困,固,国,园,圆,图,团,土,在,地,均,城,执,基,堂,坚,报,场,增,士,壮,寿,夏,夕,外,多,夜,大,天,太,夫,央,失,奉,女,好,如,妙,妹,妻,姊,始,姓,威,婚,妇,子,字,存,孝,季,孙,学,宅,宇,守,安,完,宗,官,宙,定,客,室,害,家,容,宿,密,富,寒,察,实,写,寸,寺,射,将,尊,对,小,少,就,尺,尾,局,居,屋,展,山,岛,崇,川,工,左,巨,己,已,市,布,希,师,席,常,平,年,幸,幼,序,店,度,庭,广,建,式,弓,引,弟,弱,强,形,彼,往,待,律,後,徒,得,从,德,心,必,忍,志,忘,忙,忠,快,念,怒,思,急,性,怨,恨,恩,悟,患,悲,情,惜,惠,恶,想,愁,意,爱,感,慈,庆,忧,忆,应,成,我,战,户,所,手,才,打,扶,承,技,投,抱,招,拜,拾,持,指,授,采,探,接,推,扬,支,收,改,放,政,故,效,救,败,教,敢,散,敬,敌,数,文,料,新,方,施,旅,族,日,早,明,易,昔,星,春,昨,是,时,晚,昼,景,晴,暑,暖,暗,暮,暴,曲,更,书,最,会,月,有,服,望,朝,期,木,未,末,本,朱,材,村,东,松,林,果,枝,柔,校,根,栽,案,植,业,极,荣,乐,树,桥,权,次,欲,歌,欢,止,正,步,武,岁,历,归,死,杀,母,每,比,毛,氏,民,气,水,永,江,决,河,油,治,泉,法,波,泣,注,泰,洋,洗,活,流,浪,浮,浴,海,消,凉,净,深,混,浅,清,减,湖,温,满,渔,汉,洁,火,烈,无,然,烟,热,灯,争,父,片,牛,物,特,犬,独,玉,王,现,球,理,甘,生,产,用,田,由,申,男,界,留,番,画,异,当,病,登,发,白,百,的,皆,皇,皮,益,盛,尽,目,直,相,省,看,真,眠,眼,着,知,短,石,破,硏,示,祖,祝,神,祭,禁,福,礼,秀,私,秋,科,移,税,种,谷,究,空,窗,立,章,童,端,竞,竹,笑,第,笔,等,答,算,节,米,精,约,红,纯,纸,素,细,终,结,绝,给,统,经,绿,线,练,续,罪,羊,美,义,习,老,考,者,耕,耳,圣,闻,声,听,肉,育,胸,能,脱,臣,自,至,致,与,兴,举,旧,舌,舍,舞,船,良,色,花,若,苦,英,茶,草,菜,华,万,落,叶,著,艺,药,虎,处,虚,号,虫,血,众,行,街,衣,表,制,西,要,见,视,亲,观,角,解,言,计,训,记,访,设,许,试,诗,话,认,语,诚,误,说,谁,课,调,谈,请,论,诸,讲,谢,证,识,议,读,变,让,豆,丰,贝,财,贫,货,责,贮,贵,买,贺,赏,贤,卖,质,赤,走,起,足,路,身,车,军,轻,辛,农,迎,近,追,退,送,逆,通,速,造,连,进,遇,游,运,过,道,达,远,适,选,遗,部,都,乡,酒,医,里,重,野,量,金,针,银,钱,钟,铁,长,门,闭,开,闲,间,关,防,降,限,除,阴,陆,阳,雄,集,难,雨,雪,云,电,露,青,静,非,面,革,韩,音,顶,顺,须,领,头,题,愿,风,飞,食,饭,饮,养,馀,首,香,马,惊,骨,体,高,鱼,鲜,鸟,鸣,麦,黄,黑,点,鼻,齿

汉字unicode范围中文汉字：通常包含在 U+4E00 到 U+9FFF 范围内。日文假名：包括平假名和片假名，通常包含在 U+3040 到 U+30FF 范围内。韩文：包括韩文字母和韩文音节，通常包含在 U+AC00 到 U+D7AF 范围内。越南文：包括使用拉丁字母和附加的音调符号的字符，通常包含在 U+0100 到 U+024F 范围内。

unicode范围	描述	备注
U0021-U0080	包含数字0-9，字母a-z,A-Z 空格以及常规键盘能输入的各种符号	U0080为欧元符号
U4E00－U9FA5	最初期统一汉字	最初期共20902统一汉字
U3400－U4DBF	扩展A区汉字	含有6592汉字
U20000－U2A6DD	扩展B区汉字	含有42717汉字
U2A700－U2B734	扩展C区汉字	含有4149汉字，包括来自中国大陆、澳门、台湾、日本、越南等尚未编码的汉字
U2B740－U2B81D	扩展D区汉字	含有222汉字，所谓的“急用汉字”
U2B820－U2CEAF	扩展E区汉字	含有5762汉字
U2CEB0－U2EBEF	扩展F区汉字	含有7473汉字，主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字
U30000－U3134A	扩展G区汉字	含有4939汉字，统一码13.0
U31350－U323AF	扩展H区汉字	含有4192汉字，统一码15.0
U2F800－U2FA1D	台湾的兼容汉字	542个汉字
U9FA6－U9FBB	统一码4.1汉字	22个汉字，为使统一码向下兼容GB 18030和香港增补字符集（HKSCS）的所有汉字
U9FBC－U9FC2	统一码5.1汉字	7个个汉字
UFA70－UFAD9	北韩的兼容汉字	106个汉字
U0800-U4e00	日文	日文
UAC00-UD7FF	韩文	韩文

参考来源:https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97

注: 4字节以上的unicode需要用大写Uxxxxxxxx 表示，例如“𪜱”的unicode编码是u2A731，但是需要在匹配时写成 U0002A731，补齐四个字节，占位符用0表示。

4字节以下用小写uxxxx表示即可，例如“㐀”，即可用u3400表示

测试代码

import re
 
ss = "𫟏𫟅𫝆𪜱㐀"
REGEX_FEATURE_ALL = r'[\U0002a731\u3400\U0002b746\U0002B7C5]'
re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
print(re_char_check.findall(ss))
 
 
ss_2 = "ゐ"
REGEX_FEATURE_ALL = r'[\u0800-\u4e00]'
re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
print(re_char_check.findall(ss_2))
 
ss_3 = "한국어"
REGEX_FEATURE_ALL = r'[\uac00-\ud7ff]'
re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE)
print(re_char_check.findall(ss_3))