这是本文档旧的修订版!
中日韩越南相同文字列表: 一,七,三,上,下,不,世,中,主,久,乘,九,事,二,五,井,亡,交,京,人,仁,今,他,仙,代,令,以,仰,伏,伐,休,位,低,住,何,佛,作,使,来,例,依,便,俗,保,信,修,个,借,假,伟,停,备,传,伤,价,亿,元,兄,充,兆,先,光,免,儿,入,内,全,两,八,公,六,共,兵,典,册,再,冬,冰,冷,出,刀,分,刑,列,初,判,别,利,到,则,前,力,功,加,助,勇,勉,动,务,胜,劳,势,勤,劝,化,北,区,十,千,午,半,卒,协,南,印,危,卷,厚,原,去,参,又,及,友,反,取,受,口,古,句,可,史,右,各,合,吉,同,名,向,君,否,吹,告,味,呼,命,和,哀,品,唱,商,问,善,喜,丧,单,严,四,回,因,困,固,国,园,圆,图,团,土,在,地,均,城,执,基,堂,坚,报,场,增,士,壮,寿,夏,夕,外,多,夜,大,天,太,夫,央,失,奉,女,好,如,妙,妹,妻,姊,始,姓,威,婚,妇,子,字,存,孝,季,孙,学,宅,宇,守,安,完,宗,官,宙,定,客,室,害,家,容,宿,密,富,寒,察,实,写,寸,寺,射,将,尊,对,小,少,就,尺,尾,局,居,屋,展,山,岛,崇,川,工,左,巨,己,已,市,布,希,师,席,常,平,年,幸,幼,序,店,度,庭,广,建,式,弓,引,弟,弱,强,形,彼,往,待,律,後,徒,得,从,德,心,必,忍,志,忘,忙,忠,快,念,怒,思,急,性,怨,恨,恩,悟,患,悲,情,惜,惠,恶,想,愁,意,爱,感,慈,庆,忧,忆,应,成,我,战,户,所,手,才,打,扶,承,技,投,抱,招,拜,拾,持,指,授,采,探,接,推,扬,支,收,改,放,政,故,效,救,败,教,敢,散,敬,敌,数,文,料,新,方,施,旅,族,日,早,明,易,昔,星,春,昨,是,时,晚,昼,景,晴,暑,暖,暗,暮,暴,曲,更,书,最,会,月,有,服,望,朝,期,木,未,末,本,朱,材,村,东,松,林,果,枝,柔,校,根,栽,案,植,业,极,荣,乐,树,桥,权,次,欲,歌,欢,止,正,步,武,岁,历,归,死,杀,母,每,比,毛,氏,民,气,水,永,江,决,河,油,治,泉,法,波,泣,注,泰,洋,洗,活,流,浪,浮,浴,海,消,凉,净,深,混,浅,清,减,湖,温,满,渔,汉,洁,火,烈,无,然,烟,热,灯,争,父,片,牛,物,特,犬,独,玉,王,现,球,理,甘,生,产,用,田,由,申,男,界,留,番,画,异,当,病,登,发,白,百,的,皆,皇,皮,益,盛,尽,目,直,相,省,看,真,眠,眼,着,知,短,石,破,硏,示,祖,祝,神,祭,禁,福,礼,秀,私,秋,科,移,税,种,谷,究,空,窗,立,章,童,端,竞,竹,笑,第,笔,等,答,算,节,米,精,约,红,纯,纸,素,细,终,结,绝,给,统,经,绿,线,练,续,罪,羊,美,义,习,老,考,者,耕,耳,圣,闻,声,听,肉,育,胸,能,脱,臣,自,至,致,与,兴,举,旧,舌,舍,舞,船,良,色,花,若,苦,英,茶,草,菜,华,万,落,叶,著,艺,药,虎,处,虚,号,虫,血,众,行,街,衣,表,制,西,要,见,视,亲,观,角,解,言,计,训,记,访,设,许,试,诗,话,认,语,诚,误,说,谁,课,调,谈,请,论,诸,讲,谢,证,识,议,读,变,让,豆,丰,贝,财,贫,货,责,贮,贵,买,贺,赏,贤,卖,质,赤,走,起,足,路,身,车,军,轻,辛,农,迎,近,追,退,送,逆,通,速,造,连,进,遇,游,运,过,道,达,远,适,选,遗,部,都,乡,酒,医,里,重,野,量,金,针,银,钱,钟,铁,长,门,闭,开,闲,间,关,防,降,限,除,阴,陆,阳,雄,集,难,雨,雪,云,电,露,青,静,非,面,革,韩,音,顶,顺,须,领,头,题,愿,风,飞,食,饭,饮,养,馀,首,香,马,惊,骨,体,高,鱼,鲜,鸟,鸣,麦,黄,黑,点,鼻,齿
汉字unicode范围 中文汉字:通常包含在 U+4E00 到 U+9FFF 范围内。 日文假名:包括平假名和片假名,通常包含在 U+3040 到 U+30FF 范围内。 韩文:包括韩文字母和韩文音节,通常包含在 U+AC00 到 U+D7AF 范围内。 越南文:包括使用拉丁字母和附加的音调符号的字符,通常包含在 U+0100 到 U+024F 范围内。
unicode范围 | 描述 | 备注 |
---|---|---|
U0021-U0080 | 包含数字0-9,字母a-z,A-Z 空格以及常规键盘能输入的各种符号 | U0080为欧元符号 |
U4E00-U9FA5 | 最初期统一汉字 | 最初期共20902统一汉字 |
U3400-U4DBF | 扩展A区汉字 | 含有6592汉字 |
U20000-U2A6DD | 扩展B区汉字 | 含有42717汉字 |
U2A700-U2B734 | 扩展C区汉字 | 含有4149汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未编码的汉字 |
U2B740-U2B81D | 扩展D区汉字 | 含有222汉字,所谓的“急用汉字” |
U2B820-U2CEAF | 扩展E区汉字 | 含有5762汉字 |
U2CEB0-U2EBEF | 扩展F区汉字 | 含有7473汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字 |
U30000-U3134A | 扩展G区汉字 | 含有4939汉字,统一码13.0 |
U31350-U323AF | 扩展H区汉字 | 含有4192汉字,统一码15.0 |
U2F800-U2FA1D | 台湾的兼容汉字 | 542个汉字 |
U9FA6-U9FBB | 统一码4.1汉字 | 22个汉字,为使统一码向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字 |
U9FBC-U9FC2 | 统一码5.1汉字 | 7个个汉字 |
UFA70-UFAD9 | 北韩的兼容汉字 | 106个汉字 |
U0800-U4e00 | 日文 | 日文 |
UAC00-UD7FF | 韩文 | 韩文 |
注: 4字节以上的unicode需要用大写Uxxxxxxxx 表示,例如“𪜱”的unicode编码是u2A731,但是需要在匹配时写成 U0002A731,补齐四个字节,占位符用0表示。
4字节以下用小写uxxxx表示即可,例如“㐀”,即可用u3400表示
测试代码
import re ss = "𫟏𫟅𫝆𪜱㐀" REGEX_FEATURE_ALL = r'[\U0002a731\u3400\U0002b746\U0002B7C5]' re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE) print(re_char_check.findall(ss)) ss_2 = "ゐ" REGEX_FEATURE_ALL = r'[\u0800-\u4e00]' re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE) print(re_char_check.findall(ss_2)) ss_3 = "한국어" REGEX_FEATURE_ALL = r'[\uac00-\ud7ff]' re_char_check = re.compile(REGEX_FEATURE_ALL, re.IGNORECASE) print(re_char_check.findall(ss_3))