跳转到内容

中日韓統一表意文字

本页使用了标题或全文手工转换
维基百科,自由的百科全书

这是本页的一个历史版本,由光头葛炮留言 | 贡献2023年9月20日 (三) 15:11编辑。这可能和当前版本存在着巨大的差异。

中日韓統一表意文字(英語:CJK Unified Ideographs),或譯中日韓等同表意文字[1]中日韓認同表意文字[2]中日韓統一漢字集[3]中日韓統合漢字[4],又稱作統漢碼統一漢字集(英語:Unihan),建立目的是將琉球文起源相同、本義相通、形狀一樣或稍異的表意文字,在ISO 10646統一碼標準賦予相同編碼。這作業活動在統一碼標準稱為漢字等同[5](英語:Han unification,或譯為漢字認同漢字統一漢字統合)。整理出來的中日韓統一表意文字,由統一碼聯盟建置的Unihan資料庫維護。

中日韓統一漢字集所含括的對象為漢字及其衍生出來的語素文字,包括繁體字簡化字日本漢字漢字かんじ)、韓國漢字漢字한자)、琉球汉字漢字ハンジ)、越南的喃字𡨸喃Chữ Nôm)與儒字𡨸儒Chữ Nho)、方塊壯字𭨡sawgun)。

歷史

1978年,日本產業規格制訂了基於ISO/IEC 2022JIS C 6226,為全世界最早的漢字編碼,包含6349漢字。1980年代,臺灣(CCCIICNS 11643)、中國大陸(GB 2312)、韓國(KS C 5601)開始制訂了各自的編碼規範。這些規範彼此之間並無連繫。若要在一份文件中同時使用,則要以跳脫字元的方式來交換。

1980年,日本的國立國會圖書館的高橋德太郎以書目學的觀點指出,統一的東亞漢字編碼系統有必要。同年,臺灣制定了三位元組的中文資訊交換碼,這是第一款期望可以一致處理中國、日本、韓國漢字的編碼。之後,美國的國會圖書館採用了此標準,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/WG 2)。這編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對,並在1989年提出各國漢字統合集合(Han Character Collection,HCC)的構想。

1990年完成了ISO 10646的初版草案(DIS 10646)。漢字用32位元表示,並將各國的漢字編碼原封不動加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後能順利討論漢字編碼及處理有關方針,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。

另一方面,1987年,全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓的漢字統合了。基本方針以16位元處理所有文字。1990年完成了基於此方針的最終草案。1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓類似的漢字使用約二萬多字。為了未來擴充,保留了三萬漢字以供其它用途。

1991年,各國希望能以一致的方式處理文字,否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾完成了Unified Repertoire and Ordering(URO)。1992年,URO加入ISO 10646的第二版,但發現一些缺失,之後修正。

1993年5月正式制訂最初的「中日韓統一表意文字」位於U+4E00-U+9FFF,共20902字;不過漢字“”(U+3007)誤當數字放入符號和標點區。一個月後制訂了統一碼1.1。

1999年,依據ISO/IEC 10646的第17修正案(Amendment 17)訂定扩展區A,於U+3400-U+4DFF加入6582漢字。

2001年,依據ISO/IEC 10646-2新增擴充區B,於U+20000-U+2A6FF有42711漢字;但短時間內增加大量漢字,產生許多重複字形。

2005年,依據ISO/IEC 10646:2003的第一修正案(Amendment 1),基本多文種平面增加U+9FA6-U+9FBB,共22漢字。

2009年,統一碼5.2扩展區C增加U+2A700-U+2B734,基本多文種平面增加U+9FC4-U+9FCB。

2010年,統一碼6.0扩展區D增加U+2B740-U+2B81F。

2012年,統一碼7.0基本多文種平面增加1漢字:U+9FCC。

2015年,統一碼8.0扩展區E增加U+2B820-U+2CEAF,基本多文種平面增加U+9FCD-U+9FD5。

2017年,统一码10.0扩展區F增加U+2CEB0-U+2EBEF,基本多文種平面增加U+9FD6-U+9FEA。

2018年,統一碼11.0基本多文種平面末尾增加5漢字:U+9FEB-U+9FEF。

2020年,統一碼13.0增加4969漢字,其中4939字位於第三平面的擴展區G,碼位爲U+30000-U+3134A。同時,亦在基本區增加13字:U+9FF0-U+9FFC,在擴展A區增加10字:U+4DB6-U+4DBF,在擴展B區增加7字:U+2A6D7-U+2A6DD。

2021年,統一碼14.0基本多文種平面末尾增加3漢字:U+9FFC-U+9FFF。同時,亦在擴展B區增加2字:U+2A6DE-U+2A6DF,在擴展C區增加4字:U+2B735-U+2B738。

2022年,統一碼15.0增加4193漢字,其中4192字位於第三平面的擴展區H,碼位爲U+31350-U+323AF。同時,亦在擴展C區增加7字:U+2B739。

另外,第三平面的U+31400-U+33D1F預計放置小篆,U+33E00-U+355FF預計放置甲骨文,相關提案已經提交。按路線圖,該平面還會收錄金文、簡帛文、陶文、鳥蟲書等[6]

版本

ISO 10646版本 統一碼版本 新增 置放平面 字數 累計

字數

1993 1.0 中日韓統一表意文字(U+4E00-U+9FA5) 基本多文種平面 20902 20915
1漢字(U+3007,),於中日韓符號和標點 基本多文種平面 1
在「中日韓相容表意文字」中但實則獨一的漢字(U+FA0E、U+FA0F、U+FA11、U+FA13、U+FA14、U+FA1F、U+FA21、U+FA23、U+FA24、U+FA27、U+FA28、U+FA29[註 1] 基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展區A(U+3400-U+4DB5) 基本多文種平面 6582 27497
2001 3.1 中日韓統一表意文字擴展區B(U+20000-U+2A6D6) 第二辅助平面 42711 70208
2003第一修訂版 4.1 HKSCS-2004未加入ISO 10646的漢字(U+9FA6-U+9FB3,)和GB 18030-2000未加入ISO 10646的印刷業常用偏旁和字形部件(U+9FB4–U+9FBB, 基本多文種平面 22 70230
2003第四修訂版 5.1 7日語漢字[8](U+9FBC-U+9FC2,龿),U+4039䀹拆分為U+4039和U+9FC3[9] 基本多文種平面 8 70238
2003第五修訂版 5.2 中日韓統一表意文字擴展區C(U+2A700-U+2B734) 第二辅助平面 4149 74395
2003第六修訂版 2日語用漢字(ARIB #47、#95,U+9FC4,U+9FC5)、1新增漢字(ARIB #93,U+9FC6)、HKSCS-2004推出後新增的5香港漢字[10](U+9FC7-U+9FCB, 基本多文種平面 8
2010 6.0 中日韓統一表意文字擴展區D(U+2B740-U+2B81D) 第二輔助平面 222 74617
2012 6.1 1漢字(U+9FCC 基本多文種平面 1 74618
2015 8.0 中日韓統一表意文字擴展區E(U+2B820-U+2CEA1) 第二輔助平面 5762 80389
「急用漢字」:《通用规范汉字表》餘下未收入的3字(U+9FCD-U+9FCF,),1个从U+4CA4()分离出来的字U+9FD0(),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5, 基本多文種平面 9
2017 10.0 中日韓統一表意文字擴展區F(U+2CEB0-U+2EBE0) 第二輔助平面 7473 87883
21漢字(U+9FD6-U+9FEA,鿖鿗鿘鿙鿚鿛鿜鿝鿞鿟鿠鿡鿢鿣鿤鿥鿦鿧鿨鿩鿪) 基本多文種平面 21
2018 11.0 5漢字(U+9FEB-U+9FEF,鿮鿯),前三字是新命名的化學元素用字,後兩字來自日本 基本多文種平面 5 87888
2020 13.0 中日韓統一表意文字擴展區G(U+30000-U+3134A) 第三輔助平面 4939 92857
急用科學與技術用字[11](U+9FF0-U+9FFC,鿰鿱鿲鿳鿴鿵鿶鿷鿸鿹鿺鿻鿼)、10個需分離的漢字[12][13][14](U+4DB6-U+4DBF,䶶䶷䶸䶹䶺䶻䶼䶽䶾䶿) 基本多文種平面 23
崑曲工尺譜用字[15](U+2A6D7-U+2A6DD,𪛗𪛘𪛙𪛚𪛛𪛜𪛝) 第二辅助平面 7
2021 14.0 3漢字(U+9FFD-U+9FFF,鿿 基本多文種平面 3 92866
2漢字(U+2A6DE-U+2A6DF,𪛞𪛟 第二辅助平面 2
4漢字(U+2B735-U+2B738,𫜵𫜶𫜷𫜸 第二辅助平面 4
2022 15.0 中日韓統一表意文字擴展區H(U+31350–U323AF) 第三輔助平面 4192 97058
1漢字(U+2B739,𫜹 第二辅助平面 2

成員機構

收字來源

总计

中日韩统一表意文字来源[註 2]
提交源(类别) 提交量
中国大陆(国标源) 65941
 香港 17654
 澳門 344
臺灣 58597
 日本 16148
 韩国 20739
 朝鲜 23795
 越南 13278
 英国 2503
大藏經文本數據庫委員會 3455
統一碼協會 1019
总计 223653

最初期統一漢字

最初期共20902統一漢字,範圍為U+4E00-U+9FA5,收字來源包括以下字集[17]

類別 來源代碼 名稱 字數
中國大陸
國標源(G)
G0 GB 2312-80 6763
G1 GB 12345-90 2352(含58香港字和92吏讀字,不包括和GB 2312重複的字)
G3 GB 7589-87繁體版本 7237
G5 GB 7590-87繁體版本 7039
G7 現代漢語通用字表 42(G0、1、3、5、8未包括的字)
G8 GB 8565.2-89 290(G0、1、3、5未包括的字)
臺灣源(T) T1 CNS 11643-1986第一字面 5401+9計量用漢字
T2 CNS 11643-1986第二字面 7650
TE CNS 11643-1986第十四字面 6319+239中文資訊交換碼特字+10全錄字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6335+非漢字1個(仝)[18]
J1 JIS X 0212-90 5801
韓國源(K) K0 KS C 5601-87 4888(含268重見字[19]
K1 KS C 5657-91 2856
委員會源(U) KS C 5601-1987(當中重複的漢字)
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[20]
大五碼
中文資訊交換碼第一字面
GB 12052-89(漢字部分)
JEF(富士通標準)
中國大陸電報碼
臺灣電報碼(CCDC)
全錄中文編碼
人名用漢字准用字體表(人名用漢字許容字体表;日本)
IBM選取的日本和韓國表意文字

其中,統一碼技術委員會源(U源)指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用原字集分離原則(見稍後)。

擴展A區

擴展A區包含有6592漢字,位置在U+3400-U+4DBF。這6千多漢字分別從以下字典或字集取得:

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_KX 康熙字典 5357(獨有1892字)
G_HZ 漢語大字典 5888(獨有339字)
G3 GB 7589-87繁体版本 2391
G5 GB 7590-87繁体版本 1226
G7 現代漢語通用字表 120
GS 新加坡漢字 226
臺灣源(T) T3 CNS 11643-1992第三字面(原為CNS 11643-1986第十四字面)新加入字符 2178
T4 CNS 11643-1992第四字面 2917
T5 CNS 11643-1992第五字面 395
T6 CNS 11643-1992第六字面 197
T7 CNS 11643-1992第七字面 133
TF CNS 11643-1992第十五字面 86
日本源(J) JA 日本資訊科技零售商統一當代表意文字(1993) 574
韓國源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994 1834
越南源(V) V0 TCVN 5773:1993 138
V1 TCVN 6056:1995

擴展B區

擴展B區有42717漢字,位置在U+20000-U+2A6DD。根據IRG N777號文件页面存档备份,存于互联网档案馆),這四萬多漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_KX 《康熙字典》 18486(包括在補遺篇出現的一字)
G_HZ 《漢語大字典》 28914
G_CY 辭源 66
G_CH 辭海 247
G_HC 漢語大詞典 553
G_BK 中國大百科全書 86
G_FZ 北大方正排版系统 65
G_4K 四庫全書 522
香港源(H) H 香港增補字符集(HKSCS) 1081
臺灣源(T) T4 CNS 11643-1992第四字面 3408
T5 CNS 11643-1992第五字面 8111
T6 CNS 11643-1992第六字面 5934
T7 CNS 11643-1992第七字面 6299
TF CNS 11643-1992第十五字面 6401
日本源(J) J3 JIS X 0213:2000,level 3 25
J3A JIS X 0213:2004,level 3 1
J4 JIS X 0213:2000,level 4 277
韓國源(K) K4 PKS 5700-3:1998 166
朝鮮源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000 5766
越南源(V) V2 VHN 01:1998 2290
V3 VHN 02:1998 425

這些漢字有不少重複,經整理後實際只有42711漢字。另外,U+2F800-U+2FA1D放了來自臺灣的542兼容漢字

統一碼4.1漢字

為使統一碼向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,4.1版引進了香港增補字符集的14用字和GB 18030的8用字。該22字編於U+9FA6-U+9FBB。

另外,U+FA70-U+FAD9放了來自北韓的106兼容漢字。

統一碼5.1漢字

2008年4月推出的統一碼5.1版收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[21],和鿃(大字加兩個字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來統一碼3.0收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論意義和發音均不同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[22]

擴展C區

於2009年10月發布的統一碼5.2涵蓋了擴展C區,共收錄4149漢字,包括來自中國大陆澳門臺灣日本越南等尚未編碼的漢字,在U+2A700-U+2B734。這四千多漢字分別從以下字典或字集取得:

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_BK 中國大百科全書 74
G_FZ 北京大学方正排版系统 1
G_HZ 《漢語大字典》 1
G_HC 《漢語大詞典》 14
G_GH 古代漢語詞典 50
G_GJZ 商務印書館用字 61
G_XC 現代漢語詞典 25
G_CH 《辭海》 264
G_KX 《康熙字典》及補遺 6
G_CYY 中國測繪科學研究院用字 55
G_ZFY 漢語方言大辭典 202
G_ZJW 殷周金文集成引得 366
臺灣源(T) TC CNS 11643-1992第12字面 634
TD CNS 11643-1992第13字面 767
TE CNS 11643-1992第14字面 350
澳門源 MAC 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16
日本源(J) JK 日本國字集(Japanese KOKUJI Collection) 367
韓國源(K) K5 韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404(當中主要包含古代字例)
朝鮮源(KP) KP1 KPS 10721:2003 5357(獨有1892字)
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委員會源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯:夏威夷大學出版社)
耶穌基督後期聖徒教會香港分會用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋:哈佛大學出版社)
宋本《廣韻
中國鳥類系統檢索》(鄭作新等,北京:科學出版社,2000)
段玉裁說文解字注


擴展D區

擴展D區包含的都是所謂的「急用漢字」,合共222新漢字,於2010下半年發布的統一碼6.0中,編碼範圍為U+2B740-U+2B81F(實際有字元為U+2B740-U+2B81D)。

擴展D區原本計劃放置擴展C區未收錄的16000多漢字,但在2007年5月,臺灣撤销了6545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人已去世或移居外地[23],此後擴展D區縮減到大約10000字左右[24]。由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。

類別 來源代碼 名稱 字數
中國大陸
国标源(G)
G_CH 《辭海》 1
G_IDC 公安部身份證系統人名和地名用字 31
G_XC 《现代汉语词典》 4
G_ZH 中华字海 39
臺灣源(T) TB CNS 11643-2007第11平面24字(教育部閩客方言用字) 24
日本源(J) JH 通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム日本經濟產業省提出的人名和地名用字) 108
委員會源(U) Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字 15

擴展E區

扩展E区亦在2015年6月17日的統一碼8.0中发布,放置于编码范围U+2B820-U+2CEAF。

扩展E区本应包含扩展D区未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215汉字[25],这些汉字主要用于地名、人名、姓氏,亦有数百个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共5762字[26]
这些汉字来源如下:

类别 来源代码 名称 字数
中國大陸
国标源(G)
G_BK 中国大百科全书 15
G_CH 《辞海》 112
G_CY 《辞源》 3
G_CYY 中国测绘科学院用字(地名用字) 98
G_DZ 地質出版社用字 1
G_GH 《古代汉语词典》 176
G_HC 《汉语大词典》 7
G_IDC 公安部身份证系统人名和地名用字 36
G_JZ 商务印书馆用字 147
G_KX 康熙字典 22
G_RM 人民日報用字 3
G_WZ 漢語大詞典出版社用字 12
G_XC 《现代汉语词典》 57
G_XH 新華字典 4
G_ZFY 《汉语方言大辞典》 712
G_ZJW 《殷周金文集成引得》 1410
臺灣源(T) TC CNS 11643-1992第12平面323字(台湾人名用字) 323
TD CNS 11643-1992第13平面595字(台湾人名用字) 595
TE CNS 11643-1992第14平面339字(台湾人名用字) 339
日本源(J) JK 日本国字集 415
澳門源(M) MAC 澳門資訊系統字集 48
委員會源(U) UTC 从各处收集到的未收录汉字 227
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] 1028
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用漢字

「急用漢字」是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入統一碼8.0,位置在U+9FCD-U+9FD5;當中中國大陸在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。

擴展F區

扩展F区在2017年6月20日的統一碼10.0发布,编码范围为U+2CEB0-U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。

这些汉字的来源如下:

类别 来源代码 名称 字数
中國大陸
国标源(G)
G_CY 《辞源》 122
G_FC 现代汉语规范词典 27
G_IDC 公安部身份证用字 1
G_LGYJ 壮族嘹歌研究 1
G_OCD 牛津英汉汉英词典 2
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 70
G_XHZ 新华大字典 51
G_Z 古壮字字典 995
G_ZJW 《殷周金文集成引得》 33
G_ZYS 《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》 2
日本源(J) JMJ 日本文字信息基础工程 1645
韩国源(K) KC 韩国历史情报统合系统 1793
澳門源(M) MAC 澳門資訊系統字集 22
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 2884
委員會源(U) UTC 从各处收集到的未收录汉字 1

擴展G區

於2020年3月10日公佈的統一碼13.0中在第三輔助平面收錄擴展區G的4939漢字,碼位為U+30000-U+3134A[27][28]

这些汉字的来源如下(部分字符來自多於一處來源,所以下表總數多於收錄總數4939字):

类别 来源代码 名称 字数
中國大陸
国标源(G)
G_HZR 《汉语大字典》(第二版) 878
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 13
G_Z 《古壮字字典》 1191
韩国源(K) KC 韩国历史情报统合系统(한국 역사 정보 통합 시스템) 428
臺灣源(T) T13 CNS 11643第19字面(將設立的新平面) 347
TB CNS 11643第11字面 3
TC CNS 11643第12字面 2
TD CNS 11643第13字面 1
英國源(UK) UK IRG N2107R2 1566
大藏经研究组(SAT) USAT 大正新修大藏经》(SAT版) 329
委員會源(U) UTC 从各处收集到的未收录汉字 239

擴展H區

2022年9月13日公佈的統一碼15.0在第三輔助平面收錄擴展區H的4192漢字,碼位為U+31350-U+323AF。

这些汉字的来源如下(部分字符來自多於一處來源,下表總數多於收錄總數4192字):

类别 来源代码 名称 字数
中國大陸
国标源(G)
GDM 中华人民共和国公安部治安管理局地名汉字 128
GHC 漢語大詞典 27
GKJ 全国科学技术名词审定委员会术语定名用字 30
GLGYJ 壮族嘹歌研究 11
GPGLG 壮族民歌文化丛书•平果嘹歌 14
GXM 217
GZ 古壮字字典 285
GZA-1 生生不息的传承•孝与壮族行孝歌之研究 6
GZA-2 壮族伦理道德长诗传扬歌译注 38
GZA-3 壮族民歌古籍集成•情歌(一)嘹歌 2
GZA-4 壮族民歌古籍集成•情歌(二)欢𭪤 11
GZA-6 中国壮族谚语 59
GZA-7 远古的追忆•壮族创世神话古歌研究 1
韩国源(K) KC 韩国历史情报统合系统 512
朝鲜源(KP) KP1 KPS 10721-2000 1
臺灣源(T) T12 TCA-CNS 11643第十八平面 7
T13 TCA-CNS 11643第十九平面 696
T4 CNS 11643-1992第四平面 1
T6 CNS 11643-1992第六平面 1
TB CNS 11643-2007第十一平面 4
TC CNS 11643-2007第十二平面 3
TE CNS 11643-2007第十四平面 2
英國源(UK) UK IRG N2232R 917
越南源(V) V0 TCVN 5773:1193 6
V4 汉喃编码字汇 74
VN 越南横向扩展用字 851
大藏经研究组(SAT) 大藏经文字数据库 241
委員會源(U) UTC 161

扩展I区

認同原則與原字集分離原則

「次」字的台灣教育部字形大陸规范汉字韓國的漢字越南的漢字日本的漢字

表意文字認同原則(Han Unification Rule,又稱表意文字統合原則)與原字集分離原則(Source Separation Rule,又稱來源字集分離原則原規格分離原則),是兩項對立原則,它們是統一碼整理中日韓統一表意文字的基礎。

東亞各國字形多有微妙的差異。如「房」字的第一筆,韓國傳統漢字字形、臺灣教育部標準字體作撇「」;香港教育參考字形、中國大陆規範作點「」;日本標準作橫「」。又如「次」字的左旁,韓國採用傳統字形,首筆爲橫,次筆爲挑;臺灣教育部作兩橫;大陸、日本、香港等則作「冫」(俗稱兩點水)。這種程度的差異,理想是整併為一字為佳。否則,要是凡異體字都收進不同碼位裏,統一碼收錄的漢字就會過於臃腫,用戶搜尋時也會因異體問題而找不到想要的結果。

然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。例如,日本的JIS編碼同時收錄了「剣」與「劍」字,原本JIS文件裏這兩字可以並存。如果採用整合字集後,它們會變成同一字,使用的時就會造成困擾。而且,如果將多個不同地區字形合併,會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)。

於是,表意文字認同原則與原字集分離原則就應運而生。

表意文字認同原則,統一碼「只對(Character)而不對字形(Glyph)」編碼,會把同一字的不同字形(即異體字)合併。好像上述「次」字,統一碼會整併成一碼。又例如不同地區而有不同寫法的部首,如「(中國大陸規範、日本新字體)、(港臺舊字形、韓國、日本舊字體)、臺灣教育部)」、「(中國大陸規範、臺灣教育部)、(日本新字體)、(日本舊字體、韓國、港臺舊字形)」、「(中國大陸、港臺新字形)、(舊字形)」等,會合併編碼。這些部首的寫法差異就會交由字型處理。比如說,使用依中國大陸漢字標準《印刷通用漢字字形表》的字體(如中易宋體微軟雅黑體)便會出現「」;使用臺灣教育部標準字體(如微軟正黑體新版細明體,但舊版細明體[註 3])就會出現「」等字形,大大解決了因地區而異之部首寫法。

至於原字集分離原則是指,上述所列出之各種收字來源,若有任何字集同時收了兩種以上文字字形,中日韓統一表意文字也會同時收錄這些字。這樣一來,現行各種原有字集與統一碼漢字可一一對應。比如「房」字,各地字集都沒有分別編碼,就只編進一碼位,部首第一筆的寫法交由字型處理。然而,「戶」、「户」、「戸」這三字,在一些地區標準裏是分別編碼的,統一碼則以三碼位分別收錄它們。上述的「剣」與「劍」也一樣安放到不同碼位。

基於上述運作,統一碼能大幅減少收錄漢字字數,同時讓地區編碼過渡至統一碼時,字集裏的字元不會流失,但原字集分離原則破壞了統一碼「只對字而不對字形」編碼之原則,某些漢字獲得兩位或以上編碼,亦遭受不少批評。

後來的一些重複漢字會使用“兼容区”提供暂存编码,可用归一化normalization)步骤移除。一般的漢字輸入法,以及多數漢字字型,也不支援兼容區字元。

另外,原字集分離原則只適用於最初Unified Repertoire and Ordering(URO)的20902字,換言之,由「擴展區A」開始就不再適用。原因是個別地區提交了不少僅有十分輕微差異的字樣,比如台灣《異體字字典》裏的各種異體,要求統一碼分別編碼。然而,那些字樣所建基的地區編碼,並非該地區的通用編碼,例如是中文標準交換碼(台灣實際通行的編碼是Big5碼)。若統一碼全面採納,將會令統一碼對異體字的處理更混亂。

今天,变体序列(Variation Sequence)以及Adobe常用的CID字型等技術已容許在一粒統一碼編碼收錄和調用多於一款漢字字樣,原字集分離原則在今天已成爲過時技術的副產品。

起源不同原則

留意的是,可以整併的字只限異體字。如果有些漢字的音、義根本不一樣,是兩個不同的字,即使它們外形相近,寫法差異比另一些整併的字少,但仍不能合併。這規則稱爲起源不同原則(Noncognate Rule)。

擧例說:「土」和「士」雖然形似,卻是兩個不同的字,不可整併。然而,日本、韓國、大陸、香港等地的「」字,與臺灣教育部的「」字,兩者頂部分別是「土」和「士」,但它們音義全同,是同一字的異體,就可以整併。

其他起源不同的例子還有「朏」與「胐」(「月偏旁」與「肉偏旁」對立)、「胄」與「冑」(「肉底」與「冃底」對立),「柿」和「杮」(右方「市部件」與「巿部件」對立),「汨」和「汩」(右方「日部件」與「曰部件」對立),「陝」與「陜」(右旁「夾部件」與「㚒部件」對立)等。

然而,漢字中有「同形字」的現象,有兩個或以上讀音與字義,雖然字源不同,卻由同一字形表達出來。比如漢字「芸芸眾生」的「芸」,與日本漢字「藝」字的新字体「芸」,是同形字。要是這些同形字之字形確實相同而非相似(「芸」字的草頭雖然有三筆的「⺾」、四筆的「⺿」等不同寫法,但它們都指同一部件,沒有對立),就不會應用起源不同原則。

學界批評

中文文字學學界對統一碼的原字集分離原則有不少批評,尤其是它令同一異體部件時而分離,時而合併,引伸許多日常使用的問題。擧例說,「」和「」、「」和「」都在正常區域中作分離編碼,獲得兩碼位;「晴」、「靖」、「精」雖也獲兩碼位,但其中一位在兼容區,日常難以應用;「請」、「情」、「蜻」、「靜」更只有一碼位。或例如合併「」和「」、「」和「」而分離「」和「」作兩碼位。統一碼的做法沒有把有相同異體部件的字全都合併,也沒有把它們全都分離,結果字形經常不一致,或者使用者無法選擇他希望使用的字形[29]

其他漢字使用地區也有類似聲音。如「」和「」兩個偏旁,前者爲「戔」的大陸簡化字,後者爲「戔」的日本新字体,在「」和「」、「」和「」、「」和「」等組合裏,就整併起來。可是碰到「」和「」,卻不統合,分列U+685F與U+6808兩碼位。日本學者指這種情況爲統一碼的矛盾[30]

事實上,統一碼本身在「中日韓統一表意文字」不同區域裏也用了不一致的併分尺度,因此早期異體字時常獲配正常碼位,後來常常只有兼容區的暫存編碼,再後來則不時直接整併並交由变体选择符處理。若不修正或更改早期編碼,類似問題將會持續存在。

統漢字資料庫

統漢字資料庫(英語:Unihan)是統一碼聯盟所維護的資料庫文件,為統漢字的各漢字列出說明,內容有:

  • 統一碼與各國家、地區標準及各工業標準的對應。
  • 依據重要字典(如康熙字典)的排序索引。
  • 經過編碼的異體字
  • 漢字在各種語言中的發音。
  • 英文釋義。

資料庫以以下方式發佈:

批評

收字過少

合併異體字雖有助減少收錄字數,但研究學術時,如古籍、歷史及文字等,部份文獻卻要將字形不同之字同時並列。已合併的各字在這些文獻裡變得各有各意思。學者若使用統一碼,遇到這種情況,就要用不同電腦字型去顯示同一字碼,甚至要自行造字,或捨統一碼而用其他編碼。一來尋找、轉換電腦字型構成不便,二來有損統一碼記錄每一字之用意,三來不能以純文本交換,四來電腦字型或因授權條款之限,難以交換流傳。另外,這亦等於不能以統一碼準確記錄文獻,不利數碼文本。

不同字形之字合併後,若以字形爲本檢索,會產生混亂,難以檢索,如筆畫檢字,艸部之「艹頭」,中國、日本算作三畫,而傳統中文爲四畫,留有「艸」形者則爲六畫。統一碼同一字碼源於字形不同就有幾種筆畫,檢索混亂。即使檢出字,筆畫與顯示出來的字形也不相符。因此,批評者認爲,統一碼合併異體字並不可取。

收字過多

但是另一方面,統一碼收錄不少幽靈漢字,其出處難以找到,它們在實際生活也極少機會使用,有些甚至是错讹字,或者僅是某一人的名字用字,那人不見得是名人,甚至可能已去世,卻永久成爲標準裏的字元,佔用了一碼位。比如臺灣律師呂秋𧽚的「𧽚」字本應作「遠」,可是戶政人員誤聽他外公說的臺語,把「辵字邊」聽成「走馬邊」,外公又不敢更正。當事人長大後,才確認這是錯字[33],但這字已永久收進統一碼。又如香港增補字符集有許多人名用字,學者都指出乃屬訛寫,或是來歷不明的自創新字[34]。中文資訊界李祥在其專欄批評當局「解決不了增補字集中上千錯字、白字、生造字的讀音問題」,呼籲「不要把香港增補字符集與申請ISO強迫聯繫在一起」[35]。然而,這些人名訛字亦已經收進統一碼,構成了收字過多的爭議。

也有批评认为統一碼收入大量错讹字及写法高度相似的同一字的不同字形本身就不应该。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每字的各种写法全部编码,會浪费空间。完全无损地研究、记录文献只能通过查看原本或照相影印版来完成,把无损保存转嫁给编码是错误的。

現時統一碼把一些異體字分別編碼,帶來了檢索困難。只要寫法稍有不同,就无法检出,令使用戶检索字词时,必须反复检索其不同写法,造成重复劳动,对研究文献反而是种妨碍。例如統一碼将「兒」和「𠒇」字安放在不同的碼位裏。在检索文献时,檢索「兒」字時就找不到「雷莊𠒇」,檢索「𠒇」字時就找不到「雷莊兒」,反而造成困扰[36]

準則矛盾

統一碼對同一部件有分有合,原則不一,如「」和「」、「」和「」都分離編碼,但「」和「」就整併了;「」和「」、「」和「」皆整併作一碼,而「」和「」又分開,既令人混淆,亦令人無所適從。統一碼按原字集分離原則收字,只看各地區的既有編碼,不理會同一部件的文字學問題。可是用戶現實在電腦輸入文字時看到的是具體字形而不是編碼碼位,會讓人感到矛盾和困惑。

而且在統一碼「中日韓統一表意文字」的不同區域裏,官方也用了不一致的併分尺度。早期的異體字時常獲分配正常碼位;後來常常只有兼容區的暫存編碼,使兼容區的字元在輸入和顯示時經常碰到問題;再後來則不時直接整併並交由变体选择符處理。於是統一碼的編碼矛盾就更突顯。

漢字「〇」

」是漢字,《集韻》已有此字,則天文字亦有此字。《漢語大字典》《中華字海》《現代漢語詞典》都收錄了此字。但在統一碼放入CJK符號和標點區,等同於數字0,在搜索「〇」時會連帶搜索出數字0,使用時頗為不便(搜索漢字「一、二、三」不會搜索出數字1、2、3)。此外,很多程序限定了漢字的範圍為統一碼各漢字區,區外不視為漢字,「〇」不在漢字區就無法處理,造成不便。

已統一漢字

ISO 10646原則只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法(但只是读者的浏览器所渲染的字型,与浏览器的设置与设备安装的字体有关,未必代表該地區的標準寫法)。

例子
統一碼 中文 日文 韓文 越文
中国大陸 臺灣 香港
U+623F
U+6C49 [註 4]
U+6E2F
U+6F22
U+6FB3
U+76F4
U+7A97
U+89D2
U+8AA4
U+8BEF [註 4]
U+8D77
U+9AA8

註:不是所有網頁瀏覽器均可分辨全部HTML語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。

未統一漢字

有些字只是同一字在不同地區的寫法,理應統一,但因為原字集分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643有太多字形非常接近,按統一碼標準應該統一,但分開編碼的字。這些字只有正統的會編入正式字集(包括擴展區),不正統的編入「相容表意文字區」(Compatibility Ideographs)和位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

範例:

統一碼 統一碼 統一碼
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 U+7DD1
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

自上表發表後,WG2亦調查過其他漢字[37],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3

技術問題

擴展B區

擴展B區用了輔助平面來擺放漢字,Microsoft Office 2000或之前的版本等不少文書處理軟件都不能支援,即使電腦有擴展B區漢字字體也只會顯示兩格方格。

另外,擴展B區整理有缺陷,收錄了以下本來應與其他漢字統一的5字[38]

而WG2 N1155[37]文件亦列出了152對可考慮統一的漢字。


注释

  1. ^ 這12字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字,但未有收錄在官方標準(C-、T-、J-、K-Source)。他們有獨立的形、音、義,即「獨一」(unique)[7]
  2. ^ 部分字符來自多於一個來源,所以下表提交量總數多於收錄總數97058字
  3. ^ 舊版“細明體”指Windows XP或以前版本之新細明體細明體,漢字寫法大體遵從傳承字形
  4. ^ 4.0 4.1 某些碼位原來只有個別地區的字,但其他地區為兼容國際標準,逐漸將所有碼位的字亦納入其國家標準。

参考文献

  1. ^ 無線流動裝置對《香港增補字符集》的支援 (PDF). [2022-12-19]. (原始内容存档 (PDF)于2020-02-02). 
  2. ^ 認識全字庫- 中文碼介紹. [2022-12-19]. (原始内容存档于2022-12-19). 
  3. ^ 中日韓統一漢字簡明速查字典. [2022-12-19]. (原始内容存档于2022-12-22). 
  4. ^ 漢字統合の問題 (2002-04-06). [2022-12-20]. (原始内容存档于2022-12-20). 
  5. ^ Unicode Terminology English - Traditional Chinese. [2022-12-19]. 原始内容存档于2021-08-26. 
  6. ^ Roadmap to the TIP. 統一碼聯盟. [2018-06-03]. (原始内容存档于2018-06-11). 
  7. ^ Unicode 6.1,第410-411頁 [1]页面存档备份,存于互联网档案馆
  8. ^ [2]
  9. ^ [3]
  10. ^ [4]
  11. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-08-19). 
  12. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  13. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  14. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  15. ^ 存档副本 (PDF). [2020-03-24]. (原始内容存档 (PDF)于2019-05-15). 
  16. ^ https://github.com/unicode-org/uk-source-ideographs/页面存档备份,存于互联网档案馆
  17. ^ Unihan_IRGSources.txt (from Unihan.zip). [2023-01-04]. (原始内容存档于2023-01-08). 
  18. ^ 日本的「仝」本來視為同上符號,編排於中日韩符号和标点區的 U+3004 Hanazono fonts. fonts.jp. [2010-04-19]. (原始内容存档于2010-04-12). ;但後來與正字區 U+4EDD 的字認同(統一)了,U+3004 改為日本標準符號
  19. ^ 收入中日韓相容表意文字
  20. ^ CJK Codes - CCCII and ANSI Z39.64-1989 (EACC). www.ibiblio.org. [2010-04-18]. (原始内容存档于2008-05-16). 
  21. ^ 存档副本 (PDF). [2011-09-09]. (原始内容存档 (PDF)于2012-05-09). 
  22. ^ 存档副本 (PDF). [2011-09-09]. (原始内容存档 (PDF)于2011-09-16). 
  23. ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate (PDF). [2010-06-06]. (原始内容存档 (PDF)于2011-07-21). 
  24. ^ IRGN1319A1_MoveToCJK_D.pdf. (原始内容 (PDF)存档于2018-01-15). 
  25. ^ 存档副本 (PDF). [2015年12月12日]. (原始内容 (PDF)存档于2015年1月4日). 
  26. ^ 存档副本 (PDF). [2015-06-19]. (原始内容存档 (PDF)于2015-06-25). 
  27. ^ 存档副本 (PDF). [2020-03-11]. (原始内容存档 (PDF)于2020-03-24). 
  28. ^ 存档副本. [2020-03-11]. (原始内容存档于2020-03-11). 
  29. ^ 刻石錄:《Unicode摧殘正體字》页面存档备份,存于互联网档案馆)、刻石錄:《不知丹青,枉談漢字》页面存档备份,存于互联网档案馆
  30. ^ 安岡孝一:《Unicodeの矛盾》. [2019-02-08]. (原始内容存档于2018-08-02). 
  31. ^ 統漢字資料庫. 統一碼聯盟. [2009-05-04]. (原始内容存档于2009-05-04). 
  32. ^ libUnihan主頁. libUnihan. [2009-05-04]. (原始内容存档于2012-03-21). 
  33. ^ 呂秋遠:《呂秋「走袁」》页面存档备份,存于互联网档案馆),刊《立場新聞》。
  34. ^ 《政府通用字庫錯漏百出 收錄市民自創新字影響中文水平》,《太陽報》A6版,1999年10月13日
  35. ^ 李祥:《為了香港成為數碼城市……》. [2019-02-22]. (原始内容存档于2019-05-26). 
  36. ^ 散彈一號:《「𠒇」字係咩嚟?——港姐冠軍帶出嘅哲學問題》页面存档备份,存于互联网档案馆),刊《輔仁媒體》。
  37. ^ 37.0 37.1 IRGN1155 Possible Duplicates (.zip). [2019-06-22]. 
  38. ^ 存档副本 (PDF). [2008-02-17]. (原始内容存档 (PDF)于2007-06-12). 

外部連結

統一碼
ISO表意文字工作組

参见