一、概述
1、中文編碼字符集(GB 18030)的淵源
我們知道,相對于中文編碼字符集,我國在2000年前就有近十個字符集的標準或規范在實施,具體詳見下表1-1所列(包括字符集的標準名稱與特征),好不熱鬧!這些字符集,有我國自主制定的,有等同采用國際標準制定的;有國家標準的,有部門技術規范的;收錄的圖形字符(漢字、CJK統一漢字、圖形符號等)的數量、字形、用途、種類(簡化字、繁體字、異體字、CJK等)以及編碼技術等要求也不盡相同。這就帶來了一些嚴峻的現實問題,重點表現在如下方面:一是字符集的互相兼容問題,特別是國內自主制定的字符集標準與國際標準的兼容性。二是字符集多而雜亂,為字符集使用者的使用帶來苦惱與極大的不便。三是某些字符集的強制力欠缺(如還有以部門技術規范文件來發布的),為字符集的應用帶來其隨意性。
表 1-1:當時我國存在的中文編碼字符集情況(2000年前)
鑒于上述,我國亟待需要一個統一的、全面的、權威的、兼容性好的中文(不僅是漢字,還應包括我國的少數民族文字)編碼字符集,以更有利于我國中文字符集信息的處理和信息通信。
2、中文編碼字符集(GB 18030)的首發
于是,在2000年3月,我國首次自主編制并發布了GB 18030-2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》。該字符集是我國首次采用三種字節方式編碼技術,即單字節(圖形符號編碼)、雙字節和四字節(漢字編碼)。在之前我國的漢字編碼字符集均是采用雙字節編碼方式,此是我國首次對四字節編碼做出了安排。這是因為對于漢字編碼字符集來講,GB 18030-2000收錄了表1-1中所示的所有字符集的漢字,多達27585個,僅采用雙字節方式編碼是不可能實現的。
GB 18030-2000的發布,對我國漢字編碼字符集進行了統一標準發布,且是以國家強制性標準發布,關鍵是它向下兼容原來的基本集、輔助集和GBK,向上支持國際標準的UCS/Unicode(即GB/T 13000.1),徹底解決了原來諸多字符集的不堪現實。GB 18030-2000的編碼是在GB 2312和GBK的基礎上進行的,它增加了四字節的編碼,能完全映射UCS/Unicode的基本平面和輔助平面中的字符集。下表1-2總結了GB 1803字符集的特點(優點)。
表 1-2:GB 1803字符集的特點
欲更多了解我國早期漢字編碼字符集介紹的請進入:基本集;GBK
3、中文編碼字符集(GB 18030)的修訂
從GB 18030-2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》標準名稱可以看出,其出發點是建立在對GB/T 2312(基本集)的擴充,即GB 18030-2000只是對編碼漢字數量的擴充,擴充的數量為:雙字節擴充到GBK的數量(21003個);四字節安排了CJK統一漢字擴充A的數量(6582個)。此時,還不是中文編碼字符集(仍是一個漢字編碼字符集),因為它還沒有包括我國少數民族的文字。
于是,在2005年對GB 18030-2000進行了第1次修訂,此時標準的名稱變為GB 18030-2005《信息技術 中文編碼字符集》,即它不僅包含了編碼漢字(又增加了CJK統一漢字擴充B),也包括了編碼少數民族文字。在2022年對GB 18030進行了第2次修訂,此次修訂標準的名稱保持不便,對漢字和少數民族文字的數量都進行了擴充。三個版本標準的編碼體系結構均保持不變,詳見下表1-3-1(可知,其提供的編碼位組多達16112838碼位)。下表1-3-2匯總了三個版本的字匯構成情況,以了解其包括的字匯及增擴情況。
表 1-3-1:GB 18030的編碼體系結構
表 1-3-2:GB 18030各版本的字匯構成情況
欲詳細了解GB 18030標準版本變化情況的請進入。
二、GB18030-2022字符集介紹
GB 18030-2022《信息技術 中文編碼字符集》于2022年8月開始實施,是我國最適合我國國情、最齊全、最權威的中文(漢字和少數民族文字)編碼字符集,其中編碼的漢字數量達到8.7887萬個,比2005年版增加了1.7萬余個;少數民族文字達到10種。可適應我國各行各業的文字信息的處理與交換,其適用對象為所有具備中文信息化處理及交換功能的產品,包括軟件產品和硬件產品,具體包括但不限于下表2-0所示。下述對GB 18030-2022做一簡要介紹,若要詳細了解該字符集具體內容的請查閱下附件。
表 2-0:GB 18030-2022所適用于的軟硬件產品
附件:GB 18030-2022《信息技術 中文編碼字符集》
1、關于字匯
GB 18030-2022收錄的字符是以單字節、雙字節和四字節編碼,各字節方式的字匯構成已匯總于表1-3-2之中。
2、關于碼位
對于中文編碼字符集GB 18030的碼位總體結構以及各字節方式的碼位具體安排,其三個版本是完全相同的,具體可見表1-3-1。在GB 18030各版本中還分別給出了三種字節方式的碼位安排總體結構圖。下述依據GB 18030-2022具體介紹各字節方式的碼位具體安排:
對于單字節部分的碼位分配是按照GB 11383-89的規則分配,其具體分配詳見下圖2-2,共有128個碼位。對于雙字節部分的碼位分配可詳見下表2-2-1,共有23940個碼位(其中,漢字區碼位21008個,圖形符號區碼位1038個,用戶自定義區碼位1894個)。對于四字節部分的碼位分配可詳見下表2-2-2,共有1587600個碼位(其中,少數民族文字區碼位14731個,CJK統一漢字區碼位67145個,用戶自定義區碼位25200個,保留區1480524個)。
圖 2-2:單字節部分的碼位分配圖
表 2-2-1:雙字節部分的碼位分配表
表 2-2-2:四字節部分的碼位分配表
由上表可知,根據GB 18030-2022,對于雙字節部分的碼位分配已全部分配完畢,對于四字節部分的碼位分配,其已分配的僅占全部碼位的6.7%,仍有大量的碼位空間待分配。
3、關于字符
在GB 18030-2022中對于字符的安排是,單字節方式的字符數128個(可見圖2-2),其字符的排序順序應符合GB/T 11383-89中相應字符的順序排列。雙字節方式的字符數為21882個,具體詳見下表2-3-1(包括圖形符號894個,漢字20974個,漢字部首14個);其字符的排列順序應符合GB 18030-2022附錄A的規定(它同時給出了該字符對應的GB/T 13000代碼位置)。四字節方式的字符數72859個,具體詳見下表2-3-2(包括我國少數民族文字5732個,CJK統一漢字66913個,漢字部首214個),其字符的排列順序應符合GB 18030-2022附錄C的規定(它同時給出了該字符對應的GB/T 13000代碼位置)。據此,在GB 18030-2022中收錄的漢字共87887個。
表 2-3-1:雙字節方式的字符情況
表 2-3-2:四字節方式的字符情況
4、關于字符集的實現級別
關于GB 18030的三個版本,雖然都是強制性標準,且是我國在漢字編碼方面唯一的一個強制性標準,但各版本強制性要求是不相同的,具體情況詳見下表2-4-1。對于GB 18030-2022版本,在全文強制的基礎上設立3個實現級別,并給出應達到各實現級別要求的產品類型(其中實現級別3要求最高),具體情況詳見下表2-4-2。這樣對于中文字符集的使用應用將更加人性化。
表 2-4-1:GB 18030的三個版本強制性要求
表 2-4-2:GB 18030-2022的實現級別要求
三、GB 18030與ISO/IEC 10646(GB/T 13000)、Unicode字符集之間的比較
與GB/T 2312相比,GB 18030與ISO/IEC 10646(GB/T 13000)、Unicode這幾種字符集的字匯要大的多,在廣義上都可以稱為“大字符集”,顯然優于GB/T 2312。因此,下面的比較將不包括GB/T 2312。由于GBK已經被GB 18030-2000取代,下面的比較將在GB 18030、ISO/IEC 10646(GB/T 13000)和Unicode字符集之間進行。
欲更多了解相關國際漢字編碼字符集介紹的請進入:ISO/IEC 10646;Unicode
1、技術方面
在技術方面,主要表現在編碼空間、字匯容納、編碼字節方式、兼容性等方面,具體詳見下表3-1。
表 3-1:GB 18030、ISO/IEC 10646(GB/T 13000)和Unicode之間在技術方面的比較
2、管理方面
在管理方面,主要是從字符集的研制、完善和應用的主動性和影響力方面的比較,具體詳見下表3-2。
表 3-2:GB 18030、ISO/IEC 10646(GB/T 13000)和Unicode之間在管理方面的比較
綜上所述,GB 18030、ISO/IEC 10646(GB/T 13000)和Unicode規范在技術上都十分優秀。從我國信息技術和信息產業發展的角度考慮,無論采用GB 18030還是ISO/IEC 10646都十分有利,而在我國直接采用Unicode規范顯然是不合適的。考慮到解決我國用戶的需要和解決舊有系統的兼容性問題,以及信息安全的要求,目前采用GB 18030是較為有利的選擇。
欲進一步了解我國字符編碼介紹的請進入。
82.96KB