中日韓統一表意文字

本页面有越南语的喃字，操作系统及浏览器須支持特殊字母与符号才能正確显示为喃字，否则可能變成乱码、问号、空格等其它符号。

中日韓統一表意文字（英語：CJK Unified Ideographs），也稱統一漢字（英語：Unihan），目的是要把分別來自中文、日文、韓文、越南文、壮文中，起源相同、本義相同、形狀一樣或稍異的表意文字^{[需要消歧义]}，賦予其在UISO 10646及萬國碼標準中相同編碼。

所謂「起源相同、本義相同、形狀一樣或稍異的表意文字」，主要為汉字，包括正體字、簡體字、日本漢字（漢字／かんじ）、韓國漢字（漢字／한자）、越南的喃字（𡨸喃／Chữ Nôm）與儒字（𡨸儒／Chữ Nho）、方塊壯字。

此計劃原本只包含中文、日文及韓文中所使用的漢字，舊稱中日韓（CJK）統一表意文字（Unified Ideographs）。後來，此計劃加入了越南文的喃字，所以合稱中日韓越（CJKV）統一表意文字。

歷史

1978年，日本基於ISO 2022，制訂了全世界最早的漢字編碼JIS C 6226。1980年代，中國大陸、臺灣、韓國則各自制訂了自己的規範。這些規範彼此之間並無關聯。若要在一份文件中同時使用，則要以脫序字符的方式來交換。

1980年，日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出，一個統一的東亞漢字編碼系統是有必要的。同年，臺灣制定了三位元組的中文資訊交換碼。偶然的是，這是第一個期望可以一致處理中國大陸、日本、臺灣漢字的編碼。之後，美國的國會圖書館採用了此規格，並另外命名為東亞編碼字符（East Asia Coded Character，EACC，ANSI/NISO Z39.64）。

1984年，ISO的文字編碼委員會（ISO/TC 97/SC2）決議制訂出一套編碼規格（ISO 10646），是以交換文字集的方式來統一處理世界的文字。並成立了工作小組（ISO/TC 97/SC 2/ WG 2）。這個編碼一開始的構想是採用16位元，而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此，中國當時所制訂的編碼都無法加入，因而反對。^{[來源請求]}並於1989年，提出了各國的漢字統合集合（Han Character Collection，HCC）的構想。

1990年完成了ISO 10646的初版草案（DIS 10646）。漢字使用32位元來表示。並將各國的漢字編碼原封不動地加入。但中國認為，若各國各自為漢字編碼，將不利於統一處理漢字，因而反對。為了日後關於漢字編碼的討論及方針能順利進行，並呼籲WG 2特別設置了中日韓聯合研究小組（CJK-JRG，Joint Research Group，為表意文字小組的前身），以持續討論。

另一方面，1987年，全錄的Joe Becker和Lee Collins開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為16位元。於是，中、日、韓文字統合了。基本方針為以16位元處理所有文字。 1990年，完成了基於此方針的最終草案。隔年1991年1月，大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充，保留了三萬個漢字以供其它用途。

1991年，各國希望能以一致的方式處理文字，如統一碼這般，因而否決了ISO/IEC 10646的初版草案。基於中國與統一碼聯盟的提議，ISO 10646和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼，獨自訂定規範、制作ISO 10646和統一碼的統一漢字編碼。年尾，完成了Unified Repertoire and Ordering（URO）。

1992年，URO加入ISO 10646的第二版。但是，發現了一些缺失，之後進行了修正。

1993年5月，正式制訂了最初的中日韓統一表意文字，位於U+4E00–U+9FFF這個區域，共20,902個字。一個月後，制訂了統一碼1.1。

1999年，依據ISO/IEC 10646的第17個修正案（Amendment 17）訂定了擴充區A，於U+3400–U+4DFF加入了6,582個字。

2001年，依據ISO/IEC 10646-2，新增了擴充區B，有42,711字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字，導致產生了許多重複的字形。

2005年，依據ISO/IEC 10646:2003的第1個修正案（Amendment 1），基本多文種平面增加了U+9FA6到U+9FBB等22個漢字。

2009年，統一碼5.2擴充區C增加了U+2A700-U+2B734和U+9FC4～U+9FCB。

2010年，統一碼6.0擴充區D增加了U+2B740-U+2B81F。

2012年, 1字增加U+9FCC。

2015年，統一碼8.0擴充區E增加了U+2B820-U+2CEAF。

版本

ISO 10646版本	Unicode版本	新增	置放平面	字數	累計字數
1993	1.0	中日韓統一表意文字	基本多文種平面（BMP，Basic Multilingual Plane）	20,902	20,914
1993	1.0	位於「相容表意文字區」中但實則獨一的漢字（U+FA0E（﨎）、U+FA0F（﨏）、U+FA11（﨑）、U+FA13（﨓）、U+FA14（﨔）、U+FA1F（﨟）、U+FA21（﨡）、U+FA23（﨣）、U+FA24（﨤）、U+FA27（﨧）、U+FA28（﨨）、U+FA29（﨩）^{[註 1]}	基本多文種平面	12	20,914
2000	3.0	中日韓統一表意文字擴展A區	基本多文種平面	6,582	27,496
2001	3.1	中日韓統一表意文字擴展B區	第二辅助平面（SIP，Supplementary Ideographic Plane）	42,711	70,207
2003第一修訂版	4.1	HKSCS-2004中未加入ISO 10646的漢字（U+9FA6－U+9FB3龦龧龨龩龪龫龬龭龮龯龰龱龲龳）和GB 18030-2000中未加入ISO 10646的印刷業常用的偏旁和字形部件（U+9FB4－U+9FBB龴龵龶龷龸龹龺龻）	基本多文種平面	22	70,229
2003第四修訂版	5.1	7個日語漢字（U+9FBC－U+9FC2龼龽龾龿鿀鿁鿂），U+4039䀹拆分為U+4039䀹和U+9FC3鿃	基本多文種平面	8	70,237
2003第五修訂版	5.2	中日韓統一表意文字擴展C區	第二辅助平面	4,149	74,394
2003第六修訂版	5.2	2個日語用漢字（ARIB #47, #95，U+9FC4鿄－U+9FC5鿅）、1個新增漢字（ARIB #93，U+9FC6鿆）、在HKSCS-2004推出後新增的5個香港漢字（U+9FC7－U+9FCB鿇鿈鿉鿊鿋）	基本多文種平面	8	74,394
2010	6.0	中日韓統一表意文字擴展D區（2B740-2B81F）	第二輔助平面	222	74,616
2012	6.1	1個漢字（U+9FCC鿌）	基本多文種平面	1	74,617
2015	8.0	中日韩统一表意文字扩展E区（2B820-2CEAF）	第二輔助平面	5,762	80,388
2015	8.0	「急用漢字」：3个《通用规范汉字表》中的汉字（U+9FCD-U+9FCF，鿍鿎鿏）^{[註 2]}，1个从U+4CA4（䲤）分离出来的字（U+9FD0，鿐），5个其他图书用字及化学元素用字（U+9FD1-U+9FD5，鿑鿒鿓鿔鿕）	基本多文種平面	9	80,388
2016	10.0	中日韩统一表意文字扩展F区（2CEB0–2EBEF）	第二輔助平面	7,473	87,882
2016	10.0	12個漢字(U+9FD6~U+9FE6)	基本多文種平面	12	87,882

成員機構

G：中国大陆
H：香港
J：日本
K：韩国
KP：朝鲜
M：澳門
MY：马来西亚（2008年11月第31次IRG會議加入）
T：臺灣
U：Unicode 協會
V：越南
Z：不隸屬於任何成員機構組成的國際組織

字源

最初期統一漢字

最初期的統一漢字共20,902字，其範圍為：0x4E00—0x9FA5。其字源來自以下字集：

類別	來源代碼	名稱	字數
中國国标源（G）	G0	GB 2312-80	6,763
	G1	GB 12345-90	2,352字（含58個香港字和92個吏讀字，不包括和GB 2312重複的字）
	G3	GB 7589-87 繁體版本	7,237
	G5	GB 7590-87 繁體版本	7,039
	G7	現代漢語通用字表^{[來源請求]}^[可疑]	42字（G0, 1, 3, 5, 8未包括的字）
	G8	GB 8565.2-89	290字（G0, 1, 3, 5未包括的字）
臺灣源（T）	T1	CNS 11643-1986第一字面	5,401+9個計量用漢字
	T2	CNS 11643-1986第二字面	7,650字
	TE	CNS 11643-1986第十四字面	6,319+239個中文資訊交換碼特字+10個全錄字符集（Xerox Character Code Standard，XCCS）特字
日本源（J）	J0	JIS X 0208-90	6,335+非漢字1字（仝）^[2]
日本源（J）	J1	JIS X 0212-90	5,801字
韓國源（K）	K0	KS C 5601-87	4,888字（含268個重見字）
韓國源（K）	K1	KS C 5657-91	2,856字
委員會源（U）		KS C 5601-1987（當中重複的漢字）
		美國國會圖書館之東亞字元編碼（East Asia Character Code，簡稱EACC；標準號ANSI Z39.64-1989）^[3]
		大五碼
		中文資訊交換碼第一字面
		GB 12052-89（漢字部分）
		JEF（富士通標準）
		中國電報碼
		臺灣電報碼（CCDC）
		全錄中文編碼
		人名用漢字准用字體表（人名用漢字許容字体表；日本）
		IBM選取的日本和韓國表意文字

其中，統一碼技術委員會源（U源）是指，並非由表意文字小組所遞交的參考字集，而是委員會額外遞交作參考的字集標準。並且此來源的字集不適用字源分離原則（見稍後）。

擴展A區

擴展A區包含有6,582個漢字，位置在U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得：

類別	來源代碼	名稱	字數
中國国标源（G）	G_KX	《康熙字典》	5357字（獨有1892字）
	G_HZ	《漢語大字典》	5888字（獨有339字）
	G3	GB 7589-87繁体版本	2391字
	G5	GB 7590-87繁体版本	1226字
	G7	現代漢語通用字表^{[來源請求]}^[可疑]	120字
	GS	新加坡漢字	226字
臺灣源（T）	T3	CNS 11643-1992第三字面（原本為CNS 11643-1986第十四字面）新加入字符	2178字
	T4	CNS 11643-1992第四字面	2917字
	T5	CNS 11643-1992第五字面	395字
	T6	CNS 11643-1992第六字面	197字
	T7	CNS 11643-1992第七字面	133字
	TF	CNS 11643-1992第十五字面	86字
日本源（J）	JA	日本資訊科技零售商統一當代表意文字（1993）	574字
韓國源（K）	K2	PKS C 5700-1:1994
韓國源（K）	K3	PKS C 5700-2:1994	1834字
越南源（V）	V0	TCVN 5773:1993	138字
越南源（V）	V1	TCVN 6056:1995

擴展B區

擴展B區包含有42,711個漢字，位置在U+20000—U+2A6D6。根據IRG N777號文件，這四萬多個漢字分別從以下字典或字集中取得：

類別	來源代碼	名稱	字數
中國国标源（G）	G_KX	《康熙字典》	18,486個未收錄的漢字（包括一個在補遺篇中出現的漢字）
	G_HZ	《漢語大字典》	28,914個未收錄的漢字
	G_CY	《辭源》	66個未收錄的漢字
	G_CH	《辭海》	247個未收錄的漢字
	G_HC	《漢語大詞典》	553字
	G_BK	《中國大百科全書》	86個未收錄的漢字
	G_FZ	北大方正排版系统	65個未收錄的漢字
	G_4K	《四庫全書》	522個未收錄的漢字
香港源（H）	H	香港增補字符集（HKSCS）	1,081個未收錄的漢字
臺灣源（T）	T4	CNS 11643-1992第四字面	3,408個未收錄的漢字
	T5	CNS 11643-1992第五字面	8,111個未收錄的漢字
	T6	CNS 11643-1992第六字面	5,934個未收錄的漢字
	T7	CNS 11643-1992第七字面	6,299個未收錄的漢字
	TF	CNS 11643-1992第十五字面	6,401個未收錄的漢字
日本源（J）	J3	JIS X 0213:2000, level 3	25個未收錄的漢字
	J3A	JIS X 0213:2004, level 3	1個未收錄的漢字
	J4	JIS X 0213:2000, level 4	277個未收錄的漢字
韓國源（K）	K4	PKS 5700-3:1998	166個未收錄的漢字
朝鮮源（KP）	KP0	KPS 9566-97
朝鮮源（KP）	KP1	KPS 10721-2000	5,766個未收錄的漢字
越南源（V）	V2	VHN 01:1998	2,290個未收錄的漢字
越南源（V）	V3	VHN 02:1998	425個未收錄的漢字

這些漢字中重複的漢字有不少，所以經過整理之後，實際總數只有42,711個漢字。

另外，在U+2F800—U+2FA1D的位置，放了542個來自臺灣的兼容漢字。

Unicode 4.1漢字

為使Unicode向下兼容GB 18030和香港增補字符集（HKSCS）的所有漢字，而擴展C區又遲遲未能出籠，在Unicode 4.1版中引進了14個香港增補字符集的用字和8個GB 18030用字。該22字被編於U+9FA6—U+9FBB的位置。

另外，在U+FA70—U+FAD9的位置，放了106個來自北韓的兼容漢字。

Unicode 5.1漢字

在2008年4月推出的Unicode 5.1版本，收錄7個由日本Adobe公司遞交的日語漢字（U+9FBC－U+9FC2）^[4]，和鿃（大字加兩個入字，就如陝西省的陝字換上目字旁）（U+9FC3）。本來Unicode 3.0收錄了目字旁加夾（大字加兩個人字）字的「䀹」（U+4039），目字旁加㚒字的字，與「䀹」無論在意義和發音均不相同，故魏安（Andrew West）和井作恆（John H. Jenkins）申請追加此字^[5]。

擴展C區

於2009年10月發布的Unicode 5.2涵蓋了擴展C區，共收錄4,149個漢字，包括來自中國、澳門、臺灣、日本、越南等尚未被編碼的漢字。位置在U+2A700—U+2B734。這四千多個漢字分別從以下字典或字集中取得：

類別	來源代碼	名稱	字數
中國国标源（G）	G_BK	《中國大百科全書》	74字
	G_FZ	北京大学方正排版系统	1個未收錄的漢字
	G_HZ	《漢語大字典》	1個未收錄的漢字
	G_HC	《漢語大詞典》	14個未收錄的漢字
	G_GH	《古代漢語詞典》	50字
	G_GJZ	商務印書館用字	61字
	G_XC	《現代漢語詞典》	25字
	G_CH	《辭海》	264個未收錄的漢字
	G_KX	《康熙字典》及補遺	6個未收錄的漢字
	G_CYY	中國測繪科學研究院用字	55字
	G_ZFY	《漢語方言大辭典》	202字
	G_ZJW	《殷周金文集成引得》	366字
臺灣源（T）	TC	CNS 11643-1992第12字面	634字
	TD	CNS 11643-1992第13字面	767字
	TE	CNS 11643-1992第14字面	350字
澳門源	MAC	澳門資訊系統字集（Colectânea dos Caracteres Chineses dos Sistemas Informáticos de Macau）	16字
日本源（J）	JK	日本國字集（Japanese KOKUJI Collection）	367字
韓國源（K）	K5	韓國表意文字小組漢字集第五版（2001，Korean IRG Hanja Character Set 5th Edition: 2001）	404字（當中主要包含古代字例）
朝鮮源（KP）	KP1	KPS 10721:2003	5357字（獨有1892字）
越南源（V）	V4	《喃字詞典》（Từ điển chữ Nôm）［阮光紅（Nguyễn Quang Hồng），2006］
		《岱喃字字典》（Từ điển chữ Nôm Tày，Hoàng Triều Ân，2006）
		《沔南喃字榜查》（Bảng tra chữ Nôm miền Nam，Vũ Văn Kính，1994）
委員會源（U）		ABC Chinese-English Dictionary（德范克，John DeFrancis等，第二版（1998），火奴魯魯，夏威夷大學出版社）
		耶穌基督後期聖徒教會香港分會用字
		Mathews' Chinese-English Dictionary（Robert H. Mathews（1975），劍橋，哈佛大學出版社）
		宋本《廣韻》
		《中國鳥類系統檢索》（鄭作新等（2000），北京，科學出版社）
		段玉裁《說文解字注》

擴展D區

擴展D區包含的都是所謂的「急用漢字」，合共222個新漢字，於2010年下旬發布的Unicode 6.0中，編碼範圍為U+2B740至U+2B81F（實際有字元為U+2B740至U+2B81D）。

擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字，但在2007年5月，臺灣撤消了6,545個第二部分字集內私用漢字，不再使用字，原因是那些人名用字的擁有人或已去世或已移居外地^[6]，此後擴展D區縮減到大約10,000字左右。^[7]，由於各種阻礙，協議先把數量較少，又急切要收錄的漢字提交出來，就是「急用漢字」，以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字（本來有二百二十三字，但日本撤回其中一字）。現在文字小組把第二部分字集延後到擴充E區。

類別	來源代碼	名稱	字數
中國国标源（G）	G_CH	《辭海》	1字
	G_IDC	公安部身份證系統人名和地名用字	31字
	G_XC	《现代汉语词典》	4字
	G_ZH	《中华字海》	39字
臺灣源（T）	TB	CNS 11643-2007第11平面24字（教育部臺語用字）	24字
日本源（J）	JH	通用電子情報交換環境整備計劃（汎用電子情報交換環境整備プログラム，日本經濟產業省提出的人名和地名用字）	108字
委員會源（U）		Adobe-Japan1-5和Adobe-CNS1-5字體裏的異體字	15字

擴展E區

扩展E区亦在2015年6月17日的Unicode 8.0中发布，放置于编码范围U+2B820--U+2CEAF。

扩展E区本应包含扩展D区中未收录的10000多个汉字，但在2008年11月，中国大陆以“难以逐个找证据”为理由，撤销了3215个汉字^[8]，这些汉字主要用于地名、人名、姓氏，亦有上千个《中国大百科全书》中的文字。这是继台湾撤销6545字之后的又一次大规模撤销。之后又经过长时间的检查处理，E区最终定稿，共有5762字^[9]。
这些汉字来源如下：

类别	来源代码	名称	字数
中國国标源（G）	G_BK	《中国大百科全书》	15字
	G_CH	《辞海》	112字
	G_CY	《辞源》	3字
	G_CYY	中国测绘科学院用字（地名用字）	98字
	G_DZ	地質出版社用字	1字
	G_GH	《古代汉语词典》	176字
	G_HC	《汉语大词典》	7字
	G_IDC	公安部身份证系统人名和地名用字	36字
	G_JZ	商务印书馆用字	147字
	G_KX	《康熙字典》	22字
	G_RM	人民日報用字	3字
	G_WZ	漢語大詞典出版社用字	12字
	G_XC	《现代汉语词典》	57字
	G_XH	《新華字典》	4字
	G_ZFY	《汉语方言大辞典》	712字
	G_ZJW	《殷周金文集成引得》	1410字
臺灣源（T）	TC	CNS 11643-1992第12平面323字（台湾人名用字）	323字
	TD	CNS 11643-1992第13平面595字（台湾人名用字）	595字
	TE	CNS 11643-1992第14平面339字（台湾人名用字）	339字
日本源（J）	JK	日本国字集	415字
澳门源（M）	MAC	澳门信息系统字集	48字
委員會源（U）	UTC	从各处收集到的未收录汉字	227字
越南源（V）	V4	《喃字詞典》（Từ điển chữ Nôm）［阮光紅（Nguyễn Quang Hồng），2006］	1028字
		《岱喃字字典》（Từ điển chữ Nôm Tày，Hoàng Triều Ân，2006）
		《沔南喃字榜查》（Bảng tra chữ Nôm miền Nam，Vũ Văn Kính，1994）

急用漢字

「急用漢字」是擴展E區整理後期，各地新發現並急於使用，又等不及放入擴展F區的字；和擴展E區一起收入 Unicode 8.0，位置在 U+9FCD - U+9FD5；當中中國在此處申請收入三字，連同擴展E區的字，通用規範漢字表的8105字至此全部收入。

擴展F區

扩展F区在2017年6月20日的Unicode 10.0中发布，编码范围为U+2CEB0--U+2EBEF。
扩展F区来源于新提交的一批汉字，主要包括一千多个方块壮字及数千个佛经、古籍中的用字以及日本户籍用字，共有7473字。
这些汉字的来源如下：

类别	来源代码	名称	字数
中國国标源（G）	G_CY	《辞源》	122字
	G_FC	《现代汉语规范词典》	27字
	G_IDC	公安部身份证用字	1字
	G_LGYJ	《壮族嘹歌研究》	1字
	G_OCD	《牛津英汉汉英词典》	2字
	G_PGLG	《壮族民歌文化丛书·平果嘹歌》	70字
	G_XHZ	《新华大字典》	51字
	G_Z	《古壮字字典》	995字
	G_ZJW	《殷周金文集成引得》	33字
	G_ZYS	《壮族人民的文化遗产——方块壮字》《中国民族古文字研究》	2字
日本源（J）	JMJ	日本文字信息基础工程	1645字
韩国源（K）	KC	韩国历史信息中心	1793字
澳门源（M）	MAC	澳门信息系统字集	22字
大藏经研究组（SAT）	USAT	《大正新修大藏经》	2884字
委員會源（U）	UTC	从各处收集到的未收录汉字	1字

字源分離原則

“字源分離原則”（Source Separation Rule）是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異，如「戶」字的第一筆，臺灣作撇「戶」、香港、中國大陆作點「户」、日本作橫「戸」，這種程度的差異，理想上是整併為一個字為佳。然而，從之前各種受挫之文字整併計劃的經驗得知，整合字集與現行通用字集（Big5或國標碼）等無法一一對應，是推行整合字集的最大阻礙。

例如，日本的JIS標準同時收錄了「剣」字與「劍」字，原本JIS文件裡這兩個字可以並存，但採用整合字集後反而變成同一個字，會造成使用上的困擾。而且，如果將多個不同地區字形合併會影響閱讀者，令使用者不習慣並非以往所見字形；更有可能引致閱讀者因習慣而書寫不屬於自己地區的字形（或地區性的異體字）、學習錯誤的字形。於是，字源分離原則因而誕生。

而在不同地區而有不同寫法的部首，如「⻌（中國）、⻍（港臺舊字體）、辶（港臺）」、「⺾（新字體）、卝䒑（舊字體）」、「爫（中國）、⺥（港臺）」等就會交由字體處理，例如使用依中國漢字標準《印刷通用漢字字形表》的字體下（如中易宋體、微軟雅黑體）便會出現「⻌、⺥」；使用港臺字體標準字體下（如微軟正黑體，但非舊版細明體^{[註 3]}）就會出現「辶、爫」等字形。大大解決了因地區而異之部首寫法。

字源分離原則是指，在上述所列出之各種字源裡，若有任何字集同時收了兩種以上的文字字形，則在Unicode中日韓統一表意文字中，也同時收錄這些字。這樣一來，現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求，就是能大幅減少Unicode收錄漢字字數，同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字，而不對字形」編碼之原則，亦遭受不少批評。后来的一些重复汉字会使用“兼容区”提供暂存编码，可通过归一化（normalization）步骤移除。

統漢字資料庫

統漢字資料庫是統一碼聯盟所維護的資料庫文件。其為統漢字的每個漢字做了說明，內容包含：

統一碼與各國家、地區標準及各工業標準的對應。
依據重要字典（如康熙字典）的排序索引。
經過編碼的異體字。
漢字在各種語言中的發音。
英文釋義。

其資料庫透過以下幾種方式發佈：

統一碼聯盟維護的網站版本^[10]。
可供下載的txt文本文件。
基於上述文件開發的第三方版本。
- libUnihan項目開發了一套可供調用的c函式庫，和一個SQLite格式的Unihan數據庫。^[11]前者以LGPL協議發布，後者以MIT協議發布。

批評

收字过少的批评

合併同義字，雖有助減少收錄字數，但在研究學術時，如古籍、歷史及文字研究等，部份文獻確要將字形不同之字同時並列，已合併各字，變得各有各意思。學者若用Unicode，遇此情況，就要用同碼不同電腦字形，甚至要自行造字，或捨Unicode而用其他編碼。一來尋轉電腦字形不便，二來有損Unicode記錄每一個字之用意，三來不能以純文本交換。另外亦不能以Unicode準確記錄文獻，原本不同字形之字合併，原有有別義，轉Unicode而訛誤，不利於文本存於電腦。

另外，同一部件，有分有合，原則不一致。如「眞」「真」分、「直」「直」合而「値」「值」又分，令人混淆。

不同字形之字合併後，若檢索方法以字形爲本，會混亂而難以檢索。例如筆劃檢字，艸部之草花頭，中國、日本計三劃，而傳統中文四劃，留有艸形則六劃。Unicode同一字碼，源於字形不同，就有幾種筆劃，檢索混亂。即使檢出字，筆劃與顯示之字亦不符。

文化上，東亞各國用字形有別，用電腦字形亦有別，在日本難以用傳統字之電腦字體，在港臺難以用日本電腦字體，故合併後，文本要顯示文化差異之字形，則大有困難。

收字过多的批评

但是另一方面，也有批评认为Unicode收入大量错讹字及写法高度相似的同一字的不同字形本身就是不应该的。电脑文本本身永远不可能完全无损地记录文献，且文献本身也会因传抄制版等原因略有不同，如果把每个字的各种写法全部编码，不仅浪费空间，而且检索困难，写法稍有不同就无法检出，以至于检索字词时必须反复检索其不同写法，造成重复劳动，对文献研究反而是种妨碍，例如Unicode中将避讳的缺笔字也进行编码，在检索文献时，这些字无法检索出，反造成困扰。完全无损地研究、记录文献只能通过查看原本或照相影印版来完成，把无损保存转嫁给编码是错误的。

已統一漢字

原則上ISO 10646只對字（Character），而非字形（Glyph）編碼。同一字各地可使用自己的標準寫法。以下使用HTML標示同一編碼的字在不同地區的寫法（但只是读者的浏览器所提供的字型，未必代表該地區的標準寫法）。

例子

Unicode	中文			日文	韓文	越文
Unicode	中国大陸	臺灣	香港	日文	韓文	越文
U+623F	房	房	房	房	房	房
U+6C49	汉^{[註 4]}
U+6E2F	港	港	港	港	港	港
U+6F22	漢	漢	漢	漢	漢	漢
U+76F4	直	直	直	直	直	直
U+7A97	窗	窗	窗	窗	窗	窗
U+89D2	角	角	角	角	角	角
U+8AA4	誤	誤	誤	誤	誤	誤
U+8BEF	误^{[註 4]}
U+8D77	起	起	起	起	起	起
U+9AA8	骨	骨	骨	骨	骨	骨

註：不是所有網頁瀏覽器均可分辨全部HTML的語言代碼（Language Code）並使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一樣，表示该用户的瀏覽器不能分辨此標籤，或設定兩者以同一種字形顯示。具体情况请参考Test results: Automatic font assignment for CJK text。

未統一漢字

有些字只是同一字在不同地區的寫法，理應統一，但因為字源分離原則而只好分開編碼。由於KS X 1001、Big5、IBM 32、JIS X 0213、ARIB STD-B24、KPS 10721、CNS 11643中有太多字形非常接近，按Unicode標準應該統一，但是從編碼上分離的字。這些字只有正統的會編入正式字集（包括擴展區），不正統的編入「相容表意文字區」（Compatibility Ideographs）和位於「第二輔助平面」的「相容表意文字補充區」（Compatibility Ideographs Supplement）中。

範例：

Unicode	字	Unicode	字	Unicode	字
U+4E1F	丟	U+4E22	丢
U+514C	兌	U+5151	兑
U+518A	冊	U+518C	册
U+5433	吳	U+5434	吴	U+5449	呉
U+543F	吿	U+544A	告
U+5965	奥	U+5967	奧
U+5968	奨	U+596C	奬	U+734E	獎
U+5986	妆	U+599D	妝
U+59CD	姍	U+59D7	姗
U+5C13	尓	U+5C14	尔
U+5F54	彔	U+5F55	录
U+6236	戶	U+6237	户	U+6238	戸
U+63FA	揺	U+6416	搖	U+6447	摇
U+66A8	暨	U+66C1	曁
U+69D8	様	U+6A23	樣
U+6A2A	横	U+6A6B	橫
U+6B65	步	U+6B69	歩
U+7155	煕	U+7199	熙
U+7D55	絕	U+7D76	絶
U+7DA0	綠	U+7DD1	緑
U+9AEA	髪	U+9AEE	髮
U+9EAA	麪	U+9EAB	麫
U+9EBC	麼	U+9EBD	麽
U+9EC3	黃	U+9EC4	黄
U+9ED1	黑	U+9ED2	黒

自上表發表後，WG2亦調查過其他漢字^[12]，認為另一批屬於基本多文種平面的漢字，亦可考慮收編到ISO 10646 Annex S3。

技術問題

擴展B區的問題

擴展B區使用了輔助平面來擺放漢字，以致不少文書處理軟件都不能支援。例如，Microsoft Office 2000或之前的版本，即使電腦擁有擴展B區漢字字體，也只會顯示兩個方格。

另外，因擴展B區在整理上有缺陷，收錄了以下5個本來應該與其他漢字統一的字^[13]：

U+20457 𠑗 = U+34A8 㒨
U+2420E 𤈎 = U+3DB7 㶷
U+27144 𧅄 = U+8641 虁
U+23515 𣔕 = U+204F2 𠓲
U+249E9 𤧩 = U+249BC 𤦼

而在WG2 N1155^[12]文件中，亦列出了152對可考慮統一的漢字。

错误统一的问题

表意文字小组（IRG）处理文字时，遵循对字而不是对字形编码的原则。但是有的字被错误统一编在同一个编码之中，如编码为U+2827C的汉字。2014年5月有人指出了这个问题^[14]：

编码	台湾源（TF-6127）	香港源（H-8BAE）
U+2827C	𨉼	𨉼

当惡和悪作为部件时是不应该统一的，因为惡和悪的繁简性质不同。相关的规定中也并未提及惡和悪作为部件应当统一，况且𫫖和噁是分开编码的。U+2827C的台湾源读è，是人名用字，香港源读wù，意为“鞠躬”。二者读音和意义都不一样。

但是当表意文字小组（IRG）收到这个问题后，认为应当保持统一^[15]。因此这两个字仍然在同一编码之中。

注释

^ 這12個字放到兼容區不是因為和其他字同形或為異體，而是因為它們只收錄在廠商用字中，但未有收錄在官方標準（C-、T-、J-、K-Source）中。他們有獨立的形、音、義，即「獨一」（unique）^[1]。
^ 《通用規範漢字表》中的8105字至此全部收入。
^ 舊版“細明體”指Windows XP或以前版本之新細明體及細明體。
^ ^4.0 ^4.1 某些碼位原來只有個別地區的字，但其他地區為兼容國際標準，逐漸將所有碼位的字亦納入其國家標準。

参考文献

^ Unicode 6.1, 第410-411頁 [1]
^ http://fonts.jp/hanazono/
^ http://www.ibiblio.org/pub/packages/ccic/software/info/cjk-codes/94x94x94.html
^ http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf
^ http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf
^ IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate
^ http://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf
^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg31/IRGN1531_Withdraw_CJK_D_characters_of_China.pdf
^ http://www.unicode.org/charts/PDF/U2B820.pdf
^ 統漢字資料庫. 統一碼聯盟. [2009-05-04].
^ libUnihan主頁. libUnihan. [2009-05-04].
^ ^12.0 ^12.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf
^ http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf
^ http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg42/IRGN2015_U2827Cunificationissue.pdf
^ ，第5条

外部連結

Unicode（統一碼）

漢字統合歷史
統漢字搜尋工具
表意文字變體數據庫
Unicode Roadmap to the SIP
中日韓統一表意文字（PDF，5.11MB）
中日韓兼容漢字（PDF，650kB）
中日韓兼容漢字補充（PDF，595kB）
擴展A區漢字（PDF，1.68MB）
擴展B區漢字（PDF，12.3MB）
擴展B區兼容漢字（PDF，608kB）
擴展C區漢字（PDF，2.47MB）
擴展D區漢字（PDF，226kB）
擴展E區漢字（PDF，3.41MB）
擴展F區漢字（PDF，4.23MB）
查「Unicode 編碼」或「教育部異體字字典字號」（CBETA 中華電子佛典協會）

ISO 表意文字工作組

ISO表意文字工作組網站

参见

[2] 這12個字放到兼容區不是因為和其他字同形或為異體，而是因為它們只收錄在廠商用字中，但未有收錄在官方標準（C-、T-、J-、K-Source）中。他們有獨立的形、音、義，即「獨一」（unique）^[1]。

[3] 《通用規範漢字表》中的8105字至此全部收入。

[12] 舊版“細明體”指Windows XP或以前版本之新細明體及細明體。

[sc-15] 4.0 ^4.1 某些碼位原來只有個別地區的字，但其他地區為兼容國際標準，逐漸將所有碼位的字亦納入其國家標準。

[1] Unicode 6.1, 第410-411頁 [1]

[4] ttp://fonts.jp/hanazono/

[5] ttp://www.ibiblio.org/pub/packages/ccic/software/info/cjk-codes/94x94x94.html

[6] ttp://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf

[7] ttp://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf

[8] IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate

[9] ttp://www.cse.cuhk.edu.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_D.pdf

[10] ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg31/IRGN1531_Withdraw_CJK_D_characters_of_China.pdf

[11] ttp://www.unicode.org/charts/PDF/U2B820.pdf

[13] 統漢字資料庫. 統一碼聯盟. [2009-05-04].

[14] Unihan主頁. libUnihan. [2009-05-04].

[N1155-16] 12.0 ^12.1 http://www.cse.cuhk.edu.hk/~irg/irg/irg25/IRGN1155_Possible_Duplicates.pdf

[N2644-17] ttp://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf

[18] ttp://appsrv.cse.cuhk.edu.hk/~irg/irg/irg42/IRGN2015_U2827Cunificationissue.pdf

[19] ，第5条

[cnote_a_grp_version] 統一碼版本15.0

[cnote_b_grp_version] “〇”位于此区块，因而未统一化

[註 1]

[註 2]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[註 3]

[10]

[11]

[註 4]

[12]

[13]

[14]

[15]

[1]

[a]

[b]

查论编字符编码
早期電信	電報電碼（英语：Telegraph code）庫克與惠斯通（英语：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英语：Morse code for non-Latin alphabets）日文（英语：Wabun code）中文西里爾字母（英语：Russian Morse code）韓文（英语：SKATS）博多與莫瑞 Fieldata（英语：Fieldata） ASCII ISO/IEC 646 BCDIC（英语：BCD (character encoding)）電傳文訊（英语：Teletex）與電傳視訊（英语：Videotex）／電視資訊 T.51/ISO/IEC 6937（英语：T.51/ISO/IEC 6937） ITU T.61（英语：ITU T.61） ITU T.101（英语：Videotex character set）世界系統電傳文訊（英语：World System Teletext）字元集（英语：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英语：ISO-IR-111）薩米文（英语：ISO-IR-197）改編威爾斯文（英语：ISO-IR-182）巴倫支西里爾字母（英语：ISO-IR-200）愛沙尼亞文（英语：Code page 922）烏克蘭西里爾字母（英语：Code page 1124）
書目	MARC-8（英语：MARC-8） ANSEL（英语：ANSEL）中文資訊交換碼 ISO 5426（英语：ISO 5426） ISO 5427（英语：ISO 5427） ISO 5428（英语：ISO 5428） ISO 6438 ISO 6862（英语：ISO 6862）
國家標準	ArmSCII BraSCII（英语：BraSCII）中文標準交換碼 DIN 66003（英语：DIN 66003） ELOT 927（英语：ELOT 927） GOST 10859（英语：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英语：JIS X 0212） JIS X 0213（英语：JIS X 0213） KOI-7（英语：KOI-7） KPS 9566 KS X 1001 KS X 1002（英语：KS X 1002） LST 1564（英语：LST 1564） LST 1590-4（英语：LST 1590-4） PASCII Shift JIS SI 960（英语：SI 960） TIS-620（英语：Thai Industrial Standard 620-2533） TSCII VISCII（英语：VISCII） VSCII YUSCII（英语：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英语：ISO/IEC 10367） EUC ISO-IR-165
macOS代码页	亞美尼亞文（英语：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英语：Mac OS Barents Cyrillic）凱爾特語族（英语：Mac OS Celtic）中歐語言克羅埃西亞文（英语：Mac OS Croatian encoding）西里爾字母（英语：Mac OS Cyrillic encoding）梵文波斯文（英语：MacFarsi encoding）字體X（英语：Macintosh Font X encoding）蓋爾文（英语：Mac OS Gaelic）喬治亞文（英语：Mac OS Georgian）希臘文（英语：MacGreek encoding）古吉拉特文（英语：Mac OS Gujarati）古木基文（英语：Mac OS Gurmukhi）希伯來文（英语：Mac OS Hebrew）冰島文（英语：Mac OS Icelandic encoding）因紐特文（英语：Mac OS Inuit）鍵盤（英语：Mac OS Keyboard encoding）拉丁文（英语：Macintosh Latin encoding）馬爾他文／世界文（英语：Mac OS Maltese/Esperanto encoding）歐甘字母（英语：Mac OS Ogham）羅曼語族羅馬尼亞文（英语：Mac OS Romanian encoding）薩米文（英语：Mac OS Sámi）土耳其文（英语：Mac OS Turkish encoding）土耳其西里爾字母（英语：Mac OS Turkic Cyrillic）烏克蘭文（英语：Mac OS Ukrainian encoding） VT100（英语：VT100 encoding）
DOS代碼頁	437 668（英语：Code page 668） 708（英语：Code page 708） 720（英语：Code page 720） 737（英语：Code page 737） 770（英语：Code page 770） 773（英语：Code page 773） 775（英语：Code page 775） 776（英语：Code page 776） 777（英语：Code page 777） 778（英语：Code page 778） 850（英语：Code page 850） 851（英语：Code page 851） 852（英语：Code page 852） 853（英语：Code page 853） 855（英语：Code page 855） 856（英语：Code page 856） 857（英语：Code page 857） 858（英语：Code page 858） 859（英语：Code page 859） 860（英语：Code page 860） 861（英语：Code page 861） 862（英语：Code page 862） 863（英语：Code page 863） 864（英语：Code page 864） 865（英语：Code page 865） 866（英语：Code page 866） 867（英语：Code page 867） 868（英语：Code page 868） 869（英语：Code page 869） 897（英语：Code page 897） 899（英语：Code page 899） 903（英语：Code page 903） 904（英语：Code page 904） 932（英语：Code page 932 (IBM)） 936（英语：Code page 936 (IBM)） 942（英语：Code page 942） 949（英语：Code page 949 (IBM)） 950 951（英语：Code page 951） 1040（英语：Code page 1040） 1042（英语：Code page 1042） 1043（英语：Code page 1043） 1046（英语：Code page 1046） 1098（英语：Code page 1098） 1115（英语：Code page 1115） 1116（英语：Code page 1116） 1117（英语：Code page 1117） 1118（英语：Code page 1118） 1127（英语：Code page 1127） 3846（英语：Code page 3846） ABICOMP（英语：ABICOMP character set） CS Indic（英语：CS Indic character set） CSX Indic（英语：CSX Indic character set） CSX+ Indic（英语：CSX+ Indic character set） CWI-2（英语：CWI-2）伊朗系統（英语：Iran System encoding）卡梅尼茨（英语：Kamenický encoding）馬索維亞（英语：Mazovia encoding） MIK（英语：MIK (character set)）
IBM AIX代碼頁	895（英语：Code page 895） 896（英语：Code page 896） 912（英语：Code page 912） 915（英语：Code page 915） 921（英语：Code page 921） 922（英语：Code page 922） 1006（英语：Code page 1006） 1008（英语：Code page 1008） 1009（英语：Code page 1009） 1010（英语：Code page 1010） 1012（英语：Code page 1012） 1013（英语：Code page 1013） 1014（英语：Code page 1014） 1015（英语：Code page 1015） 1016（英语：Code page 1016） 1017（英语：Code page 1017） 1018（英语：Code page 1018） 1019（英语：Code page 1019） 1124（英语：Code page 1124） 1133（英语：Code page 1133）
Microsoft Windows代碼頁（英语：Windows code page）	CER-GS（英语：CER-GS） 932（英语：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英语：Code page 1169） Extended Latin-8（英语：Extended Latin-8） 1250（英语：Windows-1250） 1251（英语：Windows-1251） 1252 1253（英语：Windows-1253） 1254（英语：Windows-1254） 1255（英语：Windows-1255） 1256（英语：Windows-1256） 1257（英语：Windows-1257） 1258（英语：Windows-1258） 1270（英语：Windows-1270）西里爾字母+芬蘭文（英语：Windows Cyrillic + Finnish）西里爾字母+法文（英语：Windows Cyrillic + French）西里爾字母+德文（英语：Windows Cyrillic + German）希臘語變音符號（英语：Windows Polytonic Greek）
EBCDIC代碼頁	37（英语：Code page 37） EBCDIC中的日文（英语：Japanese language in EBCDIC） DKOI（英语：DKOI）
DEC終端機（VTx（英语：VT220））	MCS（英语：Multinational Character Set） NRCS（英语：National Replacement Character Set）加拿大法文（英语：Code page 1020）瑞士文（英语：Code page 1021）西班牙文（英语：Code page 1023）英國英文（英语：Code page 1101）荷蘭文（英语：Code page 1102）芬蘭文（英语：Code page 1103）法文（英语：Code page 1104）挪威文／丹麥文（英语：Code page 1105）瑞典文（英语：Code page 1106）挪威文／丹麥文（替代）（英语：Code page 1107） 8位元希臘文（英语：Code page 1287） 8位元土耳其文（英语：Code page 1288） SI 960（英语：SI 960）希伯來文（英语：DEC Hebrew）特殊圖形（英语：DEC Special Graphics）技術（英语：DEC Technical Character Set）
特定平臺	1057（英语：Code page 1057） Acorn（英语：RISC OS character set） Adobe標準（英语：PostScript Standard Encoding） Adobe Latin 1（英语：PostScript Latin 1 Encoding） Amstrad CPC（英语：Amstrad CPC character set） Apple II（英语：Apple II character set）雅達利資訊交換標準碼（英语：ATASCII）雅達利ST（英语：Atari ST character set） BICS（英语：Bitstream International Character Set）卡西歐計算機（英语：Casio calculator character sets） CDC（英语：CDC display code） Compucolor II（英语：Compucolor II character set） CP/M+（英语：Amstrad CP/M Plus character set） DEC RADIX 50（英语：DEC RADIX 50） DEC MCS（英语：Multinational Character Set）/NRCS（英语：National Replacement Character Set） DG國際（英语：DG International） Fieldata（英语：Fieldata） GEM（英语：GEM character set） GSM 03.38（英语：GSM 03.38） HP Roman（英语：HP Roman） HP FOCAL（英语：FOCAL character set） HP RPL（英语：RPL character set） SQUOZE（英语：SQUOZE） LICS（英语：Lotus International Character Set） LMBCS（英语：Lotus Multi-Byte Character Set） MSX（英语：MSX character set） NEC APC（英语：NEC APC character set） NeXT（英语：NeXT character set） PETSCII（英语：PETSCII） SEGA SC-3000（英语：Sega SC-3000 character set）夏普計算機（英语：Sharp pocket computer character sets）夏普MZ（英语：Sharp MZ character set）辛克萊QL（英语：Sinclair QL character set）符號電傳文訊（英语：Teletext character set）德州儀器計算機（英语：TI calculator character sets） TRS-80（英语：TRS-80 character set）文圖拉國際（英语：Ventura International） WISCII（英语：Wang International Standard Code for Information Interchange） XCCS（英语：Xerox Character Code Standard） ZX80（英语：ZX80 character set） ZX81（英语：ZX81 character set） ZX Spectrum（英语：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英语：Tamil All Character Encoding） Unicode編碼比較（英语：Comparison of Unicode encodings）
TeX排版系統	科克（英语：Cork encoding） LY1（英语：LY1 encoding） OML（英语：OML encoding） OMS（英语：OMS encoding） OT1（英语：OT1 encoding）
其他代碼頁	ABICOMP（英语：ABICOMP character set） ASMO 449（英语：ASMO 449）大五碼 APL符號數位編碼（英语：Digital encoding of APL symbols） ISO-IR-68（英语：ISO-IR-68） ARIB STD-B24 HZ（英语：HZ (character encoding)） IEC-P27-1（英语：IEC-P27-1） INIS 7位元（英语：INIS character set） INIS-8（英语：8位元） ISO-IR-169（英语：ISO-IR-169） ISO 2033（英语：ISO 2033） KOI -R -RU（英语：KOI8-RU） -U 今昔文字鏡 SEASCII（英语：Stanford Extended ASCII） Stanford/ITS（英语：Stanford/ITS character set） TRON（英语：TRON (encoding)）統合韓文代碼（英语：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英语：Prosigns for Morse code） C0与C1控制字符 ISO/IEC 6429 JIS X 0211（英语：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英语：CCSID） HTML字符编码字符集探测中日韓統一表意文字硬體代碼頁（英语：Hardware code page）磁性墨水字元識別碼（英语：Magnetic ink character recognition）亂碼中文乱码可变宽度编码
字元集