跳转到内容

中日韓統一表意文字

本页使用了标题或全文手工转换
维基百科,自由的百科全书

这是本页的一个历史版本,由留言 | 贡献2017年7月13日 (四) 13:19编辑。这可能和当前版本存在着巨大的差异。

中日韓統一表意文字(英語:CJK Unified Ideographs),也稱統一漢字(英語:Unihan),目的是要把分別來自中文日文韓文越南文壮文中,起源相同、本義相同、形狀一樣或稍異的表意文字[需要消歧义],賦予其在UISO 10646萬國碼標準中相同編碼

所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」,主要為汉字,包括正體字簡體字日本漢字漢字/かんじ)、韓國漢字漢字/한자)、越南的喃字𡨸喃Chữ Nôm)與儒字𡨸儒Chữ Nho)、方塊壯字

此計劃原本只包含中文、日文及韓文中所使用的漢字,舊稱中日韓(CJK)統一表意文字Unified Ideographs)。後來,此計劃加入了越南文的喃字,所以合稱中日韓越(CJKV)統一表意文字。

歷史

1978年,日本基於ISO 2022,制訂了全世界最早的漢字編碼JIS C 6226。1980年代,中國大陸、臺灣、韓國則各自制訂了自己的規範。這些規範彼此之間並無關聯。若要在一份文件中同時使用,則要以脫序字符的方式來交換。

1980年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,臺灣制定了三位元組的中文資訊交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、臺灣漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(East Asia Coded Character,EACC,ANSI/NISO Z39.64)。

1984年,ISO的文字編碼委員會(ISO/TC 97/SC2)決議制訂出一套編碼規格(ISO 10646),是以交換文字集的方式來統一處理世界的文字。並成立了工作小組(ISO/TC 97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位元,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。[來源請求]並於1989年,提出了各國的漢字統合集合(Han Character Collection,HCC)的構想。

1990年完成了ISO 10646的初版草案(DIS 10646)。漢字使用32位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2特別設置了中日韓聯合研究小組(CJK-JRG,Joint Research Group,為表意文字小組的前身),以持續討論。

另一方面,1987年,全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是,中、日、韓文字統合了。基本方針為以16位元處理所有文字。 1990年,完成了基於此方針的最終草案。隔年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。

1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議,ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾,完成了Unified Repertoire and Ordering(URO)。

1992年,URO加入ISO 10646的第二版。但是,發現了一些缺失,之後進行了修正。

1993年5月,正式制訂了最初的中日韓統一表意文字,位於U+4E00–U+9FFF這個區域,共20,902個字。一個月後,制訂了統一碼1.1。

1999年,依據ISO/IEC 10646的第17個修正案(Amendment 17)訂定了擴充區A,於U+3400–U+4DFF加入了6,582個字。

2001年,依據ISO/IEC 10646-2,新增了擴充區B,有42,711字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。

2005年,依據ISO/IEC 10646:2003的第1個修正案(Amendment 1),基本多文種平面增加了U+9FA6到U+9FBB等22個漢字。

2009年,統一碼5.2擴充區C增加了U+2A700-U+2B734和U+9FC4~U+9FCB。

2010年,統一碼6.0擴充區D增加了U+2B740-U+2B81F。

2012年, 1字增加U+9FCC。

2015年,統一碼8.0擴充區E增加了U+2B820-U+2CEAF。

版本

ISO 10646版本 Unicode版本 新增 置放平面 字數 累計字數
1993 1.0 中日韓統一表意文字 基本多文種平面(BMP,Basic Multilingual Plane) 20,902 20,914
位於「相容表意文字區」中但實則獨一的漢字(U+FA0E()、U+FA0F()、U+FA11()、U+FA13()、U+FA14()、U+FA1F()、U+FA21()、U+FA23()、U+FA24()、U+FA27()、U+FA28()、U+FA29([註 1] 基本多文種平面 12
2000 3.0 中日韓統一表意文字擴展A區 基本多文種平面 6,582 27,496
2001 3.1 中日韓統一表意文字擴展B區 第二辅助平面(SIP,Supplementary Ideographic Plane) 42,711 70,207
2003第一修訂版 4.1 HKSCS-2004中未加入ISO 10646的漢字(U+9FA6-U+9FB3)和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件(U+9FB4-U+9FBB 基本多文種平面 22 70,229
2003第四修訂版 5.1 7個日語漢字(U+9FBC-U+9FC2龿),U+4039䀹拆分為U+4039和U+9FC3 基本多文種平面 8 70,237
2003第五修訂版 5.2 中日韓統一表意文字擴展C區 第二辅助平面 4,149 74,394
2003第六修訂版 2個日語用漢字(ARIB #47, #95,U+9FC4-U+9FC5)、1個新增漢字(ARIB #93,U+9FC6)、在HKSCS-2004推出後新增的5個香港漢字(U+9FC7-U+9FCB 基本多文種平面 8
2010 6.0 中日韓統一表意文字擴展D區(2B740-2B81F) 第二輔助平面 222 74,616
2012 6.1 1個漢字(U+9FCC 基本多文種平面 1 74,617
2015 8.0 中日韩统一表意文字扩展E区(2B820-2CEAF) 第二輔助平面 5,762 80,388
「急用漢字」:3个《通用规范汉字表》中的汉字(U+9FCD-U+9FCF,[註 2],1个从U+4CA4()分离出来的字(U+9FD0,),5个其他图书用字及化学元素用字(U+9FD1-U+9FD5, 基本多文種平面 9
2016 10.0 中日韩统一表意文字扩展F区(2CEB0–2EBEF) 第二輔助平面 7,473 87,882
12個 漢字(U+9FD6~U+9FE6) 基本多文種平面 12

成員機構

字源

最初期統一漢字

最初期的統一漢字共20,902字,其範圍為:0x4E00—0x9FA5。其字源來自以下字集

類別 來源代碼 名稱 字數
中國
国标源(G)
G0 GB 2312-80 6,763
G1 GB 12345-90 2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
G3 GB 7589-87 繁體版本 7,237
G5 GB 7590-87 繁體版本 7,039
G7 現代漢語通用字表[來源請求][可疑] 42字(G0, 1, 3, 5, 8未包括的字)
G8 GB 8565.2-89 290字(G0, 1, 3, 5未包括的字)
臺灣源(T) T1 CNS 11643-1986第一字面 5,401+9個計量用漢字
T2 CNS 11643-1986第二字面 7,650字
TE CNS 11643-1986第十四字面 6,319+239個中文資訊交換碼特字+10個全錄字符集(Xerox Character Code Standard,XCCS)特字
日本源(J) J0 JIS X 0208-90 6,335+非漢字1字(仝)[2]
J1 JIS X 0212-90 5,801字
韓國源(K) K0 KS C 5601-87 4,888字(含268個重見字)
K1 KS C 5657-91 2,856字
委員會源(U) KS C 5601-1987(當中重複的漢字)
美國國會圖書館之東亞字元編碼(East Asia Character Code,簡稱EACC;標準號ANSI Z39.64-1989)[3]
大五碼
中文資訊交換碼第一字面
GB 12052-89(漢字部分)
JEF(富士通標準)
中國電報碼
臺灣電報碼(CCDC)
全錄中文編碼
人名用漢字准用字體表(人名用漢字許容字体表;日本)
IBM選取的日本和韓國表意文字

其中,統一碼技術委員會源(U源)是指,並非由表意文字小組所遞交的參考字集,而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用字源分離原則(見稍後)。

擴展A區

擴展A區包含有6,582個漢字,位置在U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國
国标源(G)
G_KX 康熙字典 5357字(獨有1892字)
G_HZ 漢語大字典 5888字(獨有339字)
G3 GB 7589-87繁体版本 2391字
G5 GB 7590-87繁体版本 1226字
G7 現代漢語通用字表[來源請求][可疑] 120字
GS 新加坡漢字 226字
臺灣源(T) T3 CNS 11643-1992第三字面(原本為CNS 11643-1986第十四字面)新加入字符 2178字
T4 CNS 11643-1992第四字面 2917字
T5 CNS 11643-1992第五字面 395字
T6 CNS 11643-1992第六字面 197字
T7 CNS 11643-1992第七字面 133字
TF CNS 11643-1992第十五字面 86字
日本源(J) JA 日本資訊科技零售商統一當代表意文字(1993) 574字
韓國源(K) K2 PKS C 5700-1:1994
K3 PKS C 5700-2:1994 1834字
越南源(V) V0 TCVN 5773:1993 138字
V1 TCVN 6056:1995

擴展B區

擴展B區包含有42,711個漢字,位置在U+20000—U+2A6D6。根據IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國
国标源(G)
G_KX 《康熙字典》 18,486個未收錄的漢字(包括一個在補遺篇中出現的漢字)
G_HZ 《漢語大字典》 28,914個未收錄的漢字
G_CY 辭源 66個未收錄的漢字
G_CH 辭海 247個未收錄的漢字
G_HC 漢語大詞典 553字
G_BK 中國大百科全書 86個未收錄的漢字
G_FZ 北大方正排版系统 65個未收錄的漢字
G_4K 四庫全書 522個未收錄的漢字
香港源(H) H 香港增補字符集(HKSCS) 1,081個未收錄的漢字
臺灣源(T) T4 CNS 11643-1992第四字面 3,408個未收錄的漢字
T5 CNS 11643-1992第五字面 8,111個未收錄的漢字
T6 CNS 11643-1992第六字面 5,934個未收錄的漢字
T7 CNS 11643-1992第七字面 6,299個未收錄的漢字
TF CNS 11643-1992第十五字面 6,401個未收錄的漢字
日本源(J) J3 JIS X 0213:2000, level 3 25個未收錄的漢字
J3A JIS X 0213:2004, level 3 1個未收錄的漢字
J4 JIS X 0213:2000, level 4 277個未收錄的漢字
韓國源(K) K4 PKS 5700-3:1998 166個未收錄的漢字
朝鮮源(KP) KP0 KPS 9566-97
KP1 KPS 10721-2000 5,766個未收錄的漢字
越南源(V) V2 VHN 01:1998 2,290個未收錄的漢字
V3 VHN 02:1998 425個未收錄的漢字

這些漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。

另外,在U+2F800—U+2FA1D的位置,放了542個來自臺灣的兼容漢字

Unicode 4.1漢字

為使Unicode向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在Unicode 4.1版中引進了14個香港增補字符集的用字和8個GB 18030用字。該22字被編於U+9FA6—U+9FBB的位置。

另外,在U+FA70—U+FAD9的位置,放了106個來自北韓的兼容漢字。

Unicode 5.1漢字

在2008年4月推出的Unicode 5.1版本,收錄7個由日本Adobe公司遞交的日語漢字(U+9FBC-U+9FC2)[4],和鿃(大字加兩個字,就如陝西省的陝字換上目字旁)(U+9FC3)。本來Unicode 3.0收錄了目字旁加夾(大字加兩個字)字的「䀹」(U+4039),目字旁加㚒字的字,與「䀹」無論在意義和發音均不相同,故魏安(Andrew West)和井作恆(John H. Jenkins)申請追加此字[5]

擴展C區

於2009年10月發布的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國澳門臺灣日本越南等尚未被編碼的漢字。位置在U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得:

類別 來源代碼 名稱 字數
中國
国标源(G)
G_BK 中國大百科全書 74字
G_FZ 北京大学方正排版系统 1個未收錄的漢字
G_HZ 《漢語大字典》 1個未收錄的漢字
G_HC 《漢語大詞典》 14個未收錄的漢字
G_GH 古代漢語詞典 50字
G_GJZ 商務印書館用字 61字
G_XC 現代漢語詞典 25字
G_CH 《辭海》 264個未收錄的漢字
G_KX 《康熙字典》及補遺 6個未收錄的漢字
G_CYY 中國測繪科學研究院用字 55字
G_ZFY 漢語方言大辭典 202字
G_ZJW 殷周金文集成引得 366字
臺灣源(T) TC CNS 11643-1992第12字面 634字
TD CNS 11643-1992第13字面 767字
TE CNS 11643-1992第14字面 350字
澳門源 MAC 澳門資訊系統字集(Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau) 16字
日本源(J) JK 日本國字集(Japanese KOKUJI Collection) 367字
韓國源(K) K5 韓國表意文字小組漢字集第五版(2001,Korean IRG Hanja Character Set 5th Edition: 2001) 404字(當中主要包含古代字例)
朝鮮源(KP) KP1 KPS 10721:2003 5357字(獨有1892字)
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006]
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)
委員會源(U) ABC Chinese-English Dictionary(德范克,John DeFrancis等,第二版(1998),火奴魯魯,夏威夷大學出版社)
耶穌基督後期聖徒教會香港分會用字
Mathews' Chinese-English Dictionary(Robert H. Mathews(1975),劍橋,哈佛大學出版社)
宋本《廣韻
中國鳥類系統檢索》(鄭作新等(2000),北京,科學出版社)
段玉裁說文解字注

擴展D區

擴展D區包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發布的Unicode 6.0中,編碼範圍為U+2B740至U+2B81F(實際有字元為U+2B740至U+2B81D)。

擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,臺灣撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地[6],此後擴展D區縮減到大約10,000字左右。[7],由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但日本撤回其中一字)。現在文字小組把第二部分字集延後到擴充E區。

類別 來源代碼 名稱 字數
中國
国标源(G)
G_CH 《辭海》 1字
G_IDC 公安部身份證系統人名和地名用字 31字
G_XC 《现代汉语词典》 4字
G_ZH 中华字海 39字
臺灣源(T) TB CNS 11643-2007第11平面24字(教育部臺語用字) 24字
日本源(J) JH 通用電子情報交換環境整備計劃(汎用電子情報交換環境整備プログラム日本經濟產業省提出的人名和地名用字) 108字
委員會源(U) Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字 15字

擴展E區

扩展E区亦在2015年6月17日的Unicode 8.0中发布,放置于编码范围U+2B820--U+2CEAF。

扩展E区本应包含扩展D区中未收录的10000多个汉字,但在2008年11月,中国大陆以“难以逐个找证据”为理由,撤销了3215个汉字[8],这些汉字主要用于地名、人名、姓氏,亦有上千个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理,E区最终定稿,共有5762字[9]
这些汉字来源如下:

类别 来源代码 名称 字数
中國
国标源(G)
G_BK 中国大百科全书 15字
G_CH 《辞海》 112字
G_CY 《辞源》 3字
G_CYY 中国测绘科学院用字(地名用字) 98字
G_DZ 地質出版社用字 1字
G_GH 《古代汉语词典》 176字
G_HC 《汉语大词典》 7字
G_IDC 公安部身份证系统人名和地名用字 36字
G_JZ 商务印书馆用字 147字
G_KX 康熙字典 22字
G_RM 人民日報用字 3字
G_WZ 漢語大詞典出版社用字 12字
G_XC 现代汉语词典 57字
G_XH 《新華字典》 4字
G_ZFY 《汉语方言大辞典》 712字
G_ZJW 《殷周金文集成引得》 1410字
臺灣源(T) TC CNS 11643-1992第12平面323字(台湾人名用字) 323字
TD CNS 11643-1992第13平面595字(台湾人名用字) 595字
TE CNS 11643-1992第14平面339字(台湾人名用字) 339字
日本源(J) JK 日本国字集 415字
澳门源(M) MAC 澳门信息系统字集 48字
委員會源(U) UTC 从各处收集到的未收录汉字 227字
越南源(V) V4 《喃字詞典》(Từ điển chữ Nôm)[阮光紅(Nguyễn Quang Hồng),2006] 1028字
《岱喃字字典》(Từ điển chữ Nôm TàyHoàng Triều Ân,2006)
《沔南喃字榜查》(Bảng tra chữ Nôm miền NamVũ Văn Kính,1994)

急用漢字

「急用漢字」是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入 Unicode 8.0,位置在 U+9FCD - U+9FD5;當中中國在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。

擴展F區

扩展F区在2017年6月20日的Unicode 10.0中发布,编码范围为U+2CEB0--U+2EBEF。
扩展F区来源于新提交的一批汉字,主要包括一千多个方块壮字及数千个佛经、古籍中的用字以及日本户籍用字,共有7473字。
这些汉字的来源如下:

类别 来源代码 名称 字数
中國
国标源(G)
G_CY 《辞源》 122字
G_FC 现代汉语规范词典 27字
G_IDC 公安部身份证用字 1字
G_LGYJ 壮族嘹歌研究 1字
G_OCD 牛津英汉汉英词典 2字
G_PGLG 《壮族民歌文化丛书·平果嘹歌》 70字
G_XHZ 新华大字典 51字
G_Z 古壮字字典 995字
G_ZJW 《殷周金文集成引得》 33字
G_ZYS 《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》 2字
日本源(J) JMJ 日本文字信息基础工程 1645字
韩国源(K) KC 韩国历史信息中心 1793字
澳门源(M) MAC 澳门信息系统字集 22字
大藏经研究组(SAT) USAT 大正新修大藏经 2884字
委員會源(U) UTC 从各处收集到的未收录汉字 1字

字源分離原則

“字源分離原則”(Source Separation Rule)是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,臺灣作撇「戶」、香港、中國大陆作點「户」、日本作橫「戸」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5國標碼)等無法一一對應,是推行整合字集的最大阻礙。

例如,日本的JIS標準同時收錄了「剣」字與「劍」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。而且,如果將多個不同地區字形合併會影響閱讀者,令使用者不習慣並非以往所見字形;更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形(或地區性的異體字)、學習錯誤的字形。於是,字源分離原則因而誕生。

而在不同地區而有不同寫法的部首,如「⻌(中國)、⻍(港臺舊字體)、辶(港臺)」、「⺾(新字體)、卝䒑(舊字體)」、「爫(中國)、⺥(港臺)」等就會交由字體處理,例如使用依中國漢字標準《印刷通用漢字字形表》的字體下(如中易宋體微軟雅黑體)便會出現「⻌、⺥」;使用港臺字體標準字體下(如微軟正黑體,但舊版細明體[註 3])就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。

字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。后来的一些重复汉字会使用“兼容区”提供暂存编码,可通过归一化(normalization)步骤移除。

統漢字資料庫

統漢字資料庫統一碼聯盟所維護的資料庫文件。其為統漢字的每個漢字做了說明,內容包含:

  • 統一碼與各國家、地區標準及各工業標準的對應。
  • 依據重要字典(如康熙字典)的排序索引。
  • 經過編碼的異體字
  • 漢字在各種語言中的發音。
  • 英文釋義。

其資料庫透過以下幾種方式發佈:

  • 統一碼聯盟維護的網站版本[10]
  • 可供下載的txt文本文件
  • 基於上述文件開發的第三方版本。
    • libUnihan項目開發了一套可供調用的c函式庫,和一個SQLite格式的Unihan數據庫。[11]前者以LGPL協議發布,後者以MIT協議發布。

批評

收字过少的批评

合併同義字,雖有助減少收錄字數,但在研究學術時,如古籍、歷史及文字研究等,部份文獻確要將字形不同之字同時並列,已合併各字,變得各有各意思。學者若用Unicode,遇此情況,就要用同碼不同電腦字形,甚至要自行造字,或捨Unicode而用其他編碼。一來尋轉電腦字形不便,二來有損Unicode記錄每一個字之用意,三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻,原本不同字形之字合併,原有有別義,轉Unicode而訛誤,不利於文本存於電腦。

另外,同一部件,有分有合,原則不一致。如「眞」「」分、「」「」合而「値」「」又分,令人混淆。

不同字形之字合併後,若檢索方法以字形爲本,會混亂而難以檢索。例如筆劃檢字,艸部之草花頭,中國、日本計三劃,而傳統中文四劃,留有艸形則六劃。Unicode同一字碼,源於字形不同,就有幾種筆劃,檢索混亂。即使檢出字,筆劃與顯示之字亦不符。

文化上,東亞各國用字形有別,用電腦字形亦有別,在日本難以用傳統字之電腦字體,在港臺難以用日本電腦字體,故合併後,文本要顯示文化差異之字形,則大有困難。

收字过多的批评

但是另一方面,也有批评认为Unicode收入大量错讹字及写法高度相似的同一字的不同字形本身就是不应该的。电脑文本本身永远不可能完全无损地记录文献,且文献本身也会因传抄制版等原因略有不同,如果把每个字的各种写法全部编码,不仅浪费空间,而且检索困难,写法稍有不同就无法检出,以至于检索字词时必须反复检索其不同写法,造成重复劳动,对文献研究反而是种妨碍,例如Unicode中将避讳的缺笔字也进行编码,在检索文献时,这些字无法检索出,反造成困扰。完全无损地研究、记录文献只能通过查看原本或照相影印版来完成,把无损保存转嫁给编码是错误的。

已統一漢字

原則上ISO 10646只對(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法(但只是读者的浏览器所提供的字型,未必代表該地區的標準寫法)。

例子
Unicode 中文 日文 韓文 越文
中国大陸 臺灣 香港
U+623F
U+6C49 [註 4]
U+6E2F
U+6F22
U+76F4
U+7A97
U+89D2
U+8AA4
U+8BEF [註 4]
U+8D77
U+9AA8

註:不是所有網頁瀏覽器均可分辨全部HTML語言代碼(Language Code)並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣,表示该用户的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。具体情况请参考Test results: Automatic font assignment for CJK text

未統一漢字

有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643中有太多字形非常接近,按Unicode標準應該統一,但是從編碼上分離的字。這些字只有正統的會編入正式字集(包括擴展區),不正統的編入「相容表意文字區」(Compatibility Ideographs)和位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。

範例:

Unicode Unicode Unicode
U+4E1F U+4E22
U+514C U+5151
U+518A U+518C
U+5433 U+5434 U+5449
U+543F U+544A
U+5965 U+5967
U+5968 U+596C U+734E
U+5986 U+599D
U+59CD U+59D7
U+5C13 U+5C14
U+5F54 U+5F55
U+6236 U+6237 U+6238
U+63FA U+6416 U+6447
U+66A8 U+66C1
U+69D8 U+6A23
U+6A2A U+6A6B
U+6B65 U+6B69
U+7155 U+7199
U+7D55 U+7D76
U+7DA0 U+7DD1
U+9AEA U+9AEE
U+9EAA U+9EAB
U+9EBC U+9EBD
U+9EC3 U+9EC4
U+9ED1 U+9ED2

自上表發表後,WG2亦調查過其他漢字[12],認為另一批屬於基本多文種平面的漢字,亦可考慮收編到ISO 10646 Annex S3

技術問題

擴展B區的問題

擴展B區使用了輔助平面來擺放漢字,以致不少文書處理軟件都不能支援。例如,Microsoft Office 2000或之前的版本,即使電腦擁有擴展B區漢字字體,也只會顯示兩個方格。

另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字[13]

而在WG2 N1155[12]文件中,亦列出了152對可考慮統一的漢字。

错误统一的问题

表意文字小组(IRG)处理文字时,遵循对字而不是对字形编码的原则。但是有的字被错误统一编在同一个编码之中,如编码为U+2827C的汉字。2014年5月有人指出了这个问题[14]

编码 台湾源(TF-6127) 香港源(H-8BAE)
U+2827C 𨉼 𨉼

当惡和悪作为部件时是不应该统一的,因为惡和悪的繁简性质不同。相关的规定中也并未提及惡和悪作为部件应当统一,况且𫫖和噁是分开编码的。U+2827C的台湾源读è,是人名用字,香港源读wù,意为“鞠躬”。二者读音和意义都不一样。

但是当表意文字小组(IRG)收到这个问题后,认为应当保持统一[15]。因此这两个字仍然在同一编码之中。

注释

  1. ^ 這12個字放到兼容區不是因為和其他字同形或為異體,而是因為它們只收錄在廠商用字中,但未有收錄在官方標準(C-、T-、J-、K-Source)中。他們有獨立的形、音、義,即「獨一」(unique)[1]
  2. ^ 通用規範漢字表》中的8105字至此全部收入。
  3. ^ 舊版“細明體”指Windows XP或以前版本之新細明體細明體
  4. ^ 4.0 4.1 某些碼位原來只有個別地區的字,但其他地區為兼容國際標準,逐漸將所有碼位的字亦納入其國家標準。

参考文献

外部連結

Unicode(統一碼)
ISO表意文字工作組

参见