中日韓統一表意文字
“次”字在台、陆、韩、越、日汉字标准中的变体 |
---|
注意:本條目可能有部分字元無法顯示,若遇此情況請參閱Wikipedia:Unicode擴展漢字。 |
中日韓統一表意文字(英語:CJK Unified Ideographs),也稱統一漢字(英語:Unihan),目的是要把分別來自中文、日文、韓文、越南文、壮文中,起源相同、本義相同、形狀一樣或稍異的表意文字[需要消歧义],賦予其在UISO 10646及萬國碼標準中相同編碼。
所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」,主要為汉字,包括正體字、簡體字、日本漢字(漢字/かんじ)、韓國漢字(漢字/한자)、越南的喃字(𡨸喃/Chữ Nôm)與儒字(𡨸儒/Chữ Nho)、方塊壯字。
此計劃原本只包含中文、日文及韓文中所使用的漢字,舊稱中日韓(CJK)統一表意文字(Unified Ideographs)。後來,此計劃加入了越南文的喃字,所以合稱中日韓越(CJKV)統一表意文字。
歷史
1978年,日本基於ISO 2022,制訂了全世界最早的漢字編碼JIS C 6226。1980年代,中國大陸、臺灣、韓國則各自制訂了自己的規範。這些規範彼此之間並無關聯。若要在一份文件中同時使用,則要以脫序字符的方式來交換。
1980年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,臺灣制定了三位元組的中文資訊交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、臺灣漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。
1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。[來源請求]並於1989年,提出了各國的漢字統合集合(Han Character Collection,HCC)的構想。
1990年完成了ISO 10646的初版草案(DIS 10646)。漢字使用32位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓文字統合了。基本方針為以16位元處理所有文字。 1990年,完成了基於此方針的最終草案。隔年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾,完成了Unified Repertoire and Ordering(URO)。
1992年,URO加入ISO 10646的第二版。但是,發現了一些缺失,之後進行了修正。
1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF這個區域,共20,902個字。一個月後,制訂了統一碼1.1。
1999年,依據ISO/IEC 10646的第17個修正案(Amendment 17)訂定了擴充區A,於U+3400–U+4DFF加入了6,582個字。
2001年,依據ISO/IEC 10646-2,新增了擴充區B,有42,711字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。
2005年,依據ISO/IEC 10646:2003的第1個修正案(Amendment 1),基本多文種平面增加了U+9FA6到U+9FBB等22個漢字。
2009年,統一碼5.2擴充區C增加了U+2A700-U+2B734和U+9FC4~U+9FCB。
2010年,統一碼6.0擴充區D增加了U+2B740-U+2B81F。
2012年, 1字增加U+9FCC。
2015年,統一碼8.0擴充區E增加了U+2B820-U+2CEAF。
版本
ISO 10646版本 | Unicode版本 | 新增 | 置放平面 | 字數 | 累計字數 |
---|---|---|---|---|---|
1993 | 1.0 | 中日韓統一表意文字 | 基本多文種平面(BMP,Basic Multilingual Plane) | 20,902 | 20,914 |
位於「相容表意文字區」中但實則獨一的漢字(U+FA0E(﨎)、U+FA0F(﨏)、U+FA11(﨑)、U+FA13(﨓)、U+FA14(﨔)、U+FA1F(﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(﨧)、U+FA28(﨨)、U+FA29(﨩)[註 1] | 基本多文種平面 | 12 | |||
2000 | 3.0 | 中日韓統一表意文字擴展A區 | 基本多文種平面 | 6,582 | 27,496 |
2001 | 3.1 | 中日韓統一表意文字擴展B區 | 第二辅助平面(SIP,Supplementary Ideographic Plane) | 42,711 | 70,207 |
2003第一修訂版 | 4.1 | HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3龦龧龨龩龪龫龬龭龮龯龰龱龲龳)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB龴龵龶龷龸龹龺龻) | 基本多文種平面 | 22 | 70,229 |
2003第四修訂版 | 5.1 | 7個日語漢字(U+9FBC-U+9FC2龼龽龾龿鿀鿁鿂),U+4039䀹拆分為U+4039䀹和U+9FC3鿃 | 基本多文種平面 | 8 | 70,237 |
2003第五修訂版 | 5.2 | 中日韓統一表意文字擴展C區 | 第二辅助平面 | 4,149 | 74,394 |
2003第六修訂版 | 2個日語用漢字(ARIB #47, #95,U+9FC4鿄-U+9FC5鿅)、1個新增漢字(ARIB #93,U+9FC6鿆)、在HKSCS-2004推出後新增的5個香港漢字(U+9FC7-U+9FCB鿇鿈鿉鿊鿋) | 基本多文種平面 | 8 | ||
2010 | 6.0 | 中日韓統一表意文字擴展D區(2B740-2B81F) | 第二輔助平面 | 222 | 74,616 |
2012 | 6.1 | 1個漢字(U+9FCC鿌) | 基本多文種平面 | 1 | 74,617 |
2015 | 8.0 | 中日韩统一表意文字扩展E区(2B820-2CEAF) | 第二輔助平面 | 5,762 | 80,388 |
「急用漢字」:3个《通用规范汉字表》中的汉字(U+9FCD-U+9FCF,鿍鿎鿏)[註 2],1个从U+4CA4(䲤)分离出来的字(U+9FD0,鿐),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5,鿑鿒鿓鿔鿕) | 基本多文種平面 | 9 | |||
2016 | 10.0 | 中日韩统一表意文字扩展F区(2CEB0–2EBEF) | 第二輔助平面 | 7,473 | 87,882 |
12個 漢字(U+9FD6~U+9FE6) | 基本多文種平面 | 12 |
成員機構
- G: 中国大陆
- H: 香港
- J: 日本
- K: 韩国
- KP: 朝鲜
- M: 澳門
- MY: 马来西亚(2008年11月第31次IRG會議加入)
- T: 臺灣
- U:Unicode 協會
- V: 越南
- Z:不隸屬於任何成員機構組成的國際組織
字源
最初期統一漢字
最初期的統一漢字共20,902字,其範圍為:0x4E00—0x9FA5。其字源來自以下字集:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國 国标源(G) |
G0 | GB 2312-80 | 6,763 |
G1 | GB 12345-90 | 2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字) | |
G3 | GB 7589-87 繁體版本 | 7,237 | |
G5 | GB 7590-87 繁體版本 | 7,039 | |
G7 | 現代漢語通用字表[來源請求][可疑] | 42字(G0, 1, 3, 5, 8未包括的字) | |
G8 | GB 8565.2-89 | 290字(G0, 1, 3, 5未包括的字) | |
臺灣源(T) | T1 | CNS 11643-1986第一字面 | 5,401+9個計量用漢字 |
T2 | CNS 11643-1986第二字面 | 7,650字 | |
TE | CNS 11643-1986第十四字面 | 6,319+239個中文資訊交換碼特字+10個全錄字符集(Xerox Character Code Standard,XCCS)特字 | |
日本源(J) | J0 | JIS X 0208-90 | 6,335+非漢字1字(仝)[2] |
J1 | JIS X 0212-90 | 5,801字 | |
韓國源(K) | K0 | KS C 5601-87 | 4,888字(含268個重見字) |
K1 | KS C 5657-91 | 2,856字 | |
委員會源(U) | KS C 5601-1987(當中重複的漢字) | ||
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[3] | |||
大五碼 | |||
中文資訊交換碼第一字面 | |||
GB 12052-89(漢字部分) | |||
JEF(富士通標準) | |||
中國電報碼 | |||
臺灣電報碼(CCDC) | |||
全錄中文編碼 | |||
人名用漢字准用字體表(人名用漢字許容字体表;日本) | |||
IBM選取的日本和韓國表意文字 |
其中,統一碼技術委員會源(U源)是指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用字源分離原則(見稍後)。
擴展A區
擴展A區包含有6,582個漢字,位置在U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國 国标源(G) |
G_KX | 《康熙字典》 | 5357字(獨有1892字) |
G_HZ | 《漢語大字典》 | 5888字(獨有339字) | |
G3 | GB 7589-87繁体版本 | 2391字 | |
G5 | GB 7590-87繁体版本 | 1226字 | |
G7 | 現代漢語通用字表[來源請求][可疑] | 120字 | |
GS | 新加坡漢字 | 226字 | |
臺灣源(T) | T3 | CNS 11643-1992第三字面(原本為CNS 11643-1986第十四字面)新加入字符 | 2178字 |
T4 | CNS 11643-1992第四字面 | 2917字 | |
T5 | CNS 11643-1992第五字面 | 395字 | |
T6 | CNS 11643-1992第六字面 | 197字 | |
T7 | CNS 11643-1992第七字面 | 133字 | |
TF | CNS 11643-1992第十五字面 | 86字 | |
日本源(J) | JA | 日本資訊科技零售商統一當代表意文字(1993) | 574字 |
韓國源(K) | K2 | PKS C 5700-1:1994 | |
K3 | PKS C 5700-2:1994 | 1834字 | |
越南源(V) | V0 | TCVN 5773:1993 | 138字 |
V1 | TCVN 6056:1995 |
擴展B區
擴展B區包含有42,711個漢字,位置在U+20000—U+2A6D6。根據IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國 国标源(G) |
G_KX | 《康熙字典》 | 18,486個未收錄的漢字(包括一個在補遺篇中出現的漢字) |
G_HZ | 《漢語大字典》 | 28,914個未收錄的漢字 | |
G_CY | 《辭源》 | 66個未收錄的漢字 | |
G_CH | 《辭海》 | 247個未收錄的漢字 | |
G_HC | 《漢語大詞典》 | 553字 | |
G_BK | 《中國大百科全書》 | 86個未收錄的漢字 | |
G_FZ | 北大方正排版系统 | 65個未收錄的漢字 | |
G_4K | 《四庫全書》 | 522個未收錄的漢字 | |
香港源(H) | H | 香港增補字符集(HKSCS) | 1,081個未收錄的漢字 |
臺灣源(T) | T4 | CNS 11643-1992第四字面 | 3,408個未收錄的漢字 |
T5 | CNS 11643-1992第五字面 | 8,111個未收錄的漢字 | |
T6 | CNS 11643-1992第六字面 | 5,934個未收錄的漢字 | |
T7 | CNS 11643-1992第七字面 | 6,299個未收錄的漢字 | |
TF | CNS 11643-1992第十五字面 | 6,401個未收錄的漢字 | |
日本源(J) | J3 | JIS X 0213:2000, level 3 | 25個未收錄的漢字 |
J3A | JIS X 0213:2004, level 3 | 1個未收錄的漢字 | |
J4 | JIS X 0213:2000, level 4 | 277個未收錄的漢字 | |
韓國源(K) | K4 | PKS 5700-3:1998 | 166個未收錄的漢字 |
朝鮮源(KP) | KP0 | KPS 9566-97 | |
KP1 | KPS 10721-2000 | 5,766個未收錄的漢字 | |
越南源(V) | V2 | VHN 01:1998 | 2,290個未收錄的漢字 |
V3 | VHN 02:1998 | 425個未收錄的漢字 |
這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。
另外,在U+2F800—U+2FA1D的位置,放了542個來自臺灣的兼容漢字。
Unicode 4.1漢字
為使Unicode向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在Unicode 4.1版中引進了14個香港增補字符集的用字和8個GB 18030用字。該22字被編於U+9FA6—U+9FBB的位置。
另外,在U+FA70—U+FAD9的位置,放了106個來自北韓的兼容漢字。
Unicode 5.1漢字
在2008年4月推出的Unicode 5.1版本,收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[4],和鿃(大字加兩個入字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來Unicode 3.0收錄了目字旁加夾(大字加兩個人字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[5]。
擴展C區
於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國、澳門、臺灣、日本、越南等尚未被編碼的漢字。位置在U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國 国标源(G) |
G_BK | 《中國大百科全書》 | 74字 |
G_FZ | 北京大学方正排版系统 | 1個未收錄的漢字 | |
G_HZ | 《漢語大字典》 | 1個未收錄的漢字 | |
G_HC | 《漢語大詞典》 | 14個未收錄的漢字 | |
G_GH | 《古代漢語詞典》 | 50字 | |
G_GJZ | 商務印書館用字 | 61字 | |
G_XC | 《現代漢語詞典》 | 25字 | |
G_CH | 《辭海》 | 264個未收錄的漢字 | |
G_KX | 《康熙字典》及補遺 | 6個未收錄的漢字 | |
G_CYY | 中國測繪科學研究院用字 | 55字 | |
G_ZFY | 《漢語方言大辭典》 | 202字 | |
G_ZJW | 《殷周金文集成引得》 | 366字 | |
臺灣源(T) | TC | CNS 11643-1992第12字面 | 634字 |
TD | CNS 11643-1992第13字面 | 767字 | |
TE | CNS 11643-1992第14字面 | 350字 | |
澳門源 | MAC | 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) | 16字 |
日本源(J) | JK | 日本國字集(Japanese KOKUJI Collection) | 367字 |
韓國源(K) | K5 | 韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) | 404字(當中主要包含古代字例) |
朝鮮源(KP) | KP1 | KPS 10721:2003 | 5357字(獨有1892字) |
越南源(V) | V4 | 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] | |
《岱喃字字典》(Từ điển chữ Nôm Tày,Hoàng Triều Ân,2006) | |||
《沔南喃字榜查》(Bảng tra chữ Nôm miền Nam,Vũ Văn Kính,1994) | |||
委員會源(U) | ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯,夏威夷大學出版社) | ||
耶穌基督後期聖徒教會香港分會用字 | |||
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋,哈佛大學出版社) | |||
宋本《廣韻》 | |||
《中國鳥類系統檢索》(鄭作新等(2000),北京,科學出版社) | |||
段玉裁《說文解字注》 |
擴展D區
擴展D區包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為U+2B740至U+2B81F(實際有字元為U+2B740至U+2B81D)。
擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,臺灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[6],此後擴展D區縮減到大約10,000字左右。[7],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。
類別 | 來源代碼 | 名稱 | 字數 |
---|---|---|---|
中國 国标源(G) |
G_CH | 《辭海》 | 1字 |
G_IDC | 公安部身份證系統人名和地名用字 | 31字 | |
G_XC | 《现代汉语词典》 | 4字 | |
G_ZH | 《中华字海》 | 39字 | |
臺灣源(T) | TB | CNS 11643-2007第11平面24字(教育部臺語用字) | 24字 |
日本源(J) | JH | 通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム,日本經濟產業省提出的人名和地名用字) | 108字 |
委員會源(U) | Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字 | 15字 |
擴展E區
扩展E区亦在2015年6月17日的Unicode 8.0中发布,放置于编码范围U+2B820--U+2CEAF。
扩展E区本应包含扩展D区中未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215个汉字[8],这些汉字主要用于地名、人名、姓氏,亦有上千个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共有5762字[9]。
这些汉字来源如下:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中國 国标源(G) |
G_BK | 《中国大百科全书》 | 15字 |
G_CH | 《辞海》 | 112字 | |
G_CY | 《辞源》 | 3字 | |
G_CYY | 中国测绘科学院用字(地名用字) | 98字 | |
G_DZ | 地質出版社用字 | 1字 | |
G_GH | 《古代汉语词典》 | 176字 | |
G_HC | 《汉语大词典》 | 7字 | |
G_IDC | 公安部身份证系统人名和地名用字 | 36字 | |
G_JZ | 商务印书馆用字 | 147字 | |
G_KX | 《康熙字典》 | 22字 | |
G_RM | 人民日報用字 | 3字 | |
G_WZ | 漢語大詞典出版社用字 | 12字 | |
G_XC | 《现代汉语词典》 | 57字 | |
G_XH | 《新華字典》 | 4字 | |
G_ZFY | 《汉语方言大辞典》 | 712字 | |
G_ZJW | 《殷周金文集成引得》 | 1410字 | |
臺灣源(T) | TC | CNS 11643-1992第12平面323字(台湾人名用字) | 323字 |
TD | CNS 11643-1992第13平面595字(台湾人名用字) | 595字 | |
TE | CNS 11643-1992第14平面339字(台湾人名用字) | 339字 | |
日本源(J) | JK | 日本国字集 | 415字 |
澳门源(M) | MAC | 澳门信息系统字集 | 48字 |
委員會源(U) | UTC | 从各处收集到的未收录汉字 | 227字 |
越南源(V) | V4 | 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] | 1028字 |
《岱喃字字典》(Từ điển chữ Nôm Tày,Hoàng Triều Ân,2006) | |||
《沔南喃字榜查》(Bảng tra chữ Nôm miền Nam,Vũ Văn Kính,1994) |
急用漢字
「急用漢字」是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入 Unicode 8.0,位置在 U+9FCD - U+9FD5;當中中國在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。
擴展F區
扩展F区在2017年6月20日的Unicode 10.0中发布,编码范围为U+2CEB0--U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多个方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。
这些汉字的来源如下:
类别 | 来源代码 | 名称 | 字数 |
---|---|---|---|
中國 国标源(G) |
G_CY | 《辞源》 | 122字 |
G_FC | 《现代汉语规范词典》 | 27字 | |
G_IDC | 公安部身份证用字 | 1字 | |
G_LGYJ | 《壮族嘹歌研究》 | 1字 | |
G_OCD | 《牛津英汉汉英词典》 | 2字 | |
G_PGLG | 《壮族民歌文化丛书·平果嘹歌》 | 70字 | |
G_XHZ | 《新华大字典》 | 51字 | |
G_Z | 《古壮字字典》 | 995字 | |
G_ZJW | 《殷周金文集成引得》 | 33字 | |
G_ZYS | 《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》 | 2字 | |
日本源(J) | JMJ | 日本文字信息基础工程 | 1645字 |
韩国源(K) | KC | 韩国历史信息中心 | 1793字 |
澳门源(M) | MAC | 澳门信息系统字集 | 22字 |
大藏经研究组(SAT) | USAT | 《大正新修大藏经》 | 2884字 |
委員會源(U) | UTC | 从各处收集到的未收录汉字 | 1字 |
字源分離原則
“字源分離原則”(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,臺灣作撇「戶」、香港、中國大陆作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。
而在不同地區而有不同寫法的部首,如「⻌(中國)、⻍(港臺舊字體)、辶(港臺)」、「⺾(新字體)、卝䒑(舊字體)」、「爫(中國)、⺥(港臺)」等就會交由字體處理,例如使用依中國漢字標準《印刷通用漢字字形表》的字體下(如中易宋體、微軟雅黑體)便會出現「⻌、⺥」;使用港臺字體標準字體下(如微軟正黑體,但非舊版細明體[註 3])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。
字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。后来的一些重复汉字会使用“兼容区”提供暂存编码,可通过归一化(normalization)步骤移除。
統漢字資料庫
統漢字資料庫是統一碼聯盟所維護的資料庫文件。其為統漢字的每個漢字做了說明,內容包含:
其資料庫透過以下幾種方式發佈:
批評
收字过少的批评
合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合併各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄每一個字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合併,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。
另外,同一部件,有分有合,原則不一致。如「眞」「真」分、「直」「直」合而「値」「值」又分,令人混淆。
不同字形之字合併後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,中國、日本計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。
文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合併後,文本要顯示文化差異之字形,則大有困難。
收字过多的批评
但是另一方面,也有批评认为Unicode收入大量错讹字及写法高度相似的同一字的不同字形本身就是不应该的。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每个字的各种写法全部编码,不仅浪费空间,而且检索困难,写法稍有不同就无法检出,以至于检索字词时必须反复检索其不同写法,造成重复劳动,对文献研究反而是种妨碍,例如Unicode中将避讳的缺笔字也进行编码,在检索文献时,这些字无法检索出,反造成困扰。完全无损地研究、记录文献只能通过查看原本或照相影印版来完成,把无损保存转嫁给编码是错误的。
已統一漢字
原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法(但只是读者的浏览器所提供的字型,未必代表該地區的標準寫法)。
- 例子
Unicode | 中文 | 日文 | 韓文 | 越文 | ||
---|---|---|---|---|---|---|
中国大陸 | 臺灣 | 香港 | ||||
U+623F | 房 | 房 | 房 | 房 | 房 | 房 |
U+6C49 | 汉[註 4] | |||||
U+6E2F | 港 | 港 | 港 | 港 | 港 | 港 |
U+6F22 | 漢 | 漢 | 漢 | 漢 | 漢 | 漢 |
U+76F4 | 直 | 直 | 直 | 直 | 直 | 直 |
U+7A97 | 窗 | 窗 | 窗 | 窗 | 窗 | 窗 |
U+89D2 | 角 | 角 | 角 | 角 | 角 | 角 |
U+8AA4 | 誤 | 誤 | 誤 | 誤 | 誤 | 誤 |
U+8BEF | 误[註 4] | |||||
U+8D77 | 起 | 起 | 起 | 起 | 起 | 起 |
U+9AA8 | 骨 | 骨 | 骨 | 骨 | 骨 | 骨 |
註:不是所有網頁瀏覽器均可分辨全部HTML的語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考Test results: Automatic font assignment for CJK text。
未統一漢字
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643中有太多字形非常接近,按Unicode標準應該統一,但是從編碼上分離的字。這些字只有正統的會編入正式字集(包括擴展區),不正統的編入「相容表意文字區」(Compatibility Ideographs)和位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。
範例:
Unicode | 字 | Unicode | 字 | Unicode | 字 |
---|---|---|---|---|---|
U+4E1F | 丟 | U+4E22 | 丢 | ||
U+514C | 兌 | U+5151 | 兑 | ||
U+518A | 冊 | U+518C | 册 | ||
U+5433 | 吳 | U+5434 | 吴 | U+5449 | 呉 |
U+543F | 吿 | U+544A | 告 | ||
U+5965 | 奥 | U+5967 | 奧 | ||
U+5968 | 奨 | U+596C | 奬 | U+734E | 獎 |
U+5986 | 妆 | U+599D | 妝 | ||
U+59CD | 姍 | U+59D7 | 姗 | ||
U+5C13 | 尓 | U+5C14 | 尔 | ||
U+5F54 | 彔 | U+5F55 | 录 | ||
U+6236 | 戶 | U+6237 | 户 | U+6238 | 戸 |
U+63FA | 揺 | U+6416 | 搖 | U+6447 | 摇 |
U+66A8 | 暨 | U+66C1 | 曁 | ||
U+69D8 | 様 | U+6A23 | 樣 | ||
U+6A2A | 横 | U+6A6B | 橫 | ||
U+6B65 | 步 | U+6B69 | 歩 | ||
U+7155 | 煕 | U+7199 | 熙 | ||
U+7D55 | 絕 | U+7D76 | 絶 | ||
U+7DA0 | 綠 | U+7DD1 | 緑 | ||
U+9AEA | 髪 | U+9AEE | 髮 | ||
U+9EAA | 麪 | U+9EAB | 麫 | ||
U+9EBC | 麼 | U+9EBD | 麽 | ||
U+9EC3 | 黃 | U+9EC4 | 黄 | ||
U+9ED1 | 黑 | U+9ED2 | 黒 |
自上表發表後,WG2亦調查過其他漢字[12],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3。
技術問題
擴展B區的問題
擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。
另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[13]:
- U+20457 𠑗 = U+34A8 㒨
- U+2420E 𤈎 = U+3DB7 㶷
- U+27144 𧅄 = U+8641 虁
- U+23515 𣔕 = U+204F2 𠓲
- U+249E9 𤧩 = U+249BC 𤦼
而在WG2 N1155[12]文件中,亦列出了152對可考慮統一的漢字。
错误统一的问题
表意文字小组(IRG)处理文字时,遵循对字而不是对字形编码的原则。但是有的字被错误统一编在同一个编码之中,如编码为U+2827C的汉字。2014年5月有人指出了这个问题[14]:
编码 | 台湾源(TF-6127) | 香港源(H-8BAE) |
---|---|---|
U+2827C | 𨉼 | 𨉼 |
当惡和悪作为部件时是不应该统一的,因为惡和悪的繁简性质不同。相关的规定中也并未提及惡和悪作为部件应当统一,况且𫫖和噁是分开编码的。U+2827C的台湾源读è,是人名用字,香港源读wù,意为“鞠躬”。二者读音和意义都不一样。
但是当表意文字小组(IRG)收到这个问题后,认为应当保持统一[15]。因此这两个字仍然在同一编码之中。
注释
参考文献
- ^ Unicode 6.1, 第410-411頁 [1]
- ^ http://fonts.jp/hanazono/
- ^ http://www.ibiblio.org/pub/packages/ccic/software/info/cjk-codes/94x94x94.html
- ^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
- ^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
- ^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate
- ^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf
- ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg31/IRGN1531_Withdraw_CJK_D_characters_of_China.pdf
- ^ http://www.unicode.org/charts/PDF/U2B820.pdf
- ^ 統漢字資料庫. 統一碼聯盟. [2009-05-04].
- ^ libUnihan主頁. libUnihan. [2009-05-04].
- ^ 12.0 12.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
- ^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf
- ^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg42/IRGN2015_U2827Cunificationissue.pdf
- ^ ,第5条
外部連結
- Unicode(統一碼)
- 漢字統合歷史
- 統漢字搜尋工具
- 表意文字變體數據庫
- Unicode Roadmap to the SIP
- 中日韓統一表意文字(PDF,5.11MB)
- 中日韓兼容漢字(PDF,650kB)
- 中日韓兼容漢字補充(PDF,595kB)
- 擴展A區漢字(PDF,1.68MB)
- 擴展B區漢字(PDF,12.3MB)
- 擴展B區兼容漢字(PDF,608kB)
- 擴展C區漢字(PDF,2.47MB)
- 擴展D區漢字(PDF,226kB)
- 擴展E區漢字(PDF,3.41MB)
- 擴展F區漢字(PDF,4.23MB)
- 查「Unicode 編碼」或「教育部異體字字典字號」(CBETA 中華電子佛典協會)