關(guān)于漢字編碼字符集有多種,它們大體可以分成兩類:一類是以漢字字匯作為主體的漢字編碼字符集,另一類是不僅包含漢字字匯而且包含世界各國和地區(qū)使用的主要文字符號的多文種編碼字符集。前一類大多依據(jù)ISO/IEC 2022所定義的體系結(jié)構(gòu),后一類則采用UCS/Unicode所定義的體系結(jié)構(gòu)。在我國,同樣依據(jù)這兩種結(jié)構(gòu)有相應(yīng)的漢字編碼字符集的國內(nèi)標(biāo)準(zhǔn),且在不斷的擴(kuò)充、完善。在介紹漢字編碼字符集前,下表0給出了漢字編碼字符集標(biāo)準(zhǔn)中的相關(guān)術(shù)語與定義,如:字符、字匯、控制字符、圖形字符(注意:漢字屬于圖形字符)等,以幫助其理解。
表 0:漢字編碼字符集標(biāo)準(zhǔn)中的相關(guān)術(shù)語與定義
一、以漢字字匯作為主體的漢字編碼字符集
ISO/IEC 2022定義的編碼字符集體系結(jié)構(gòu),基于單字節(jié)的256個碼位的代碼空間。扣除控制字符占用的64個碼位,圖形字符可使用的代碼空間就比較狹小。因此,它規(guī)定了一個了七位代碼擴(kuò)充到八位代碼的擴(kuò)充方法,以供字符編碼可采用單字節(jié)、雙字節(jié)乃至四字節(jié)進(jìn)行編碼。漢字是大字符集,每個漢字至少需要用2個字節(jié)來表示。中、日、韓等國家和地區(qū),對使用的漢字分別進(jìn)行編碼,它們的字匯、字級和字序各不相同。此類漢字編碼字符集在東亞地區(qū),尤其是中、日、韓,最主要的有如下幾種。
1、GB/T 2312-1980《信息交換用漢字編碼字符集·基本集》
這是1981年我國頒布的第一個漢字編碼國家標(biāo)準(zhǔn),該標(biāo)準(zhǔn)采用雙字節(jié)的編碼方式,選出6763個常用漢字字符和682個非漢字字符,為每個字符規(guī)定了標(biāo)準(zhǔn)代碼。其中一級常用漢字3755個,二級常用漢字3008個。
欲詳細(xì)了解GB 2312-1980所規(guī)范的漢字編碼字符集的請進(jìn)入。
2、關(guān)于我國信息交換用漢字編碼字符集的輔助集
GB/T 2312-1980基本集編碼的包括漢字的字符集過少,無法滿足我國各行各業(yè)漢字信息交換的使用,于是,我國又陸續(xù)發(fā)布了7個信息交換用漢字編碼字符相關(guān)輔助集的標(biāo)準(zhǔn),包括:第一輔助集(GB/T 12345-90)、第二輔助集(GB/T 7589-1987)、第三輔助集(GB/T 13131-1991)、第四輔助集(GB/T 7590-1987)、第五輔助集(GB/T 13132-1991)、第七輔助集(GB/T 16500-1998)和第八輔助集(SJ/T 11239-2001),但無第六輔助集。以擴(kuò)充更多漢字及字符的編碼,或適應(yīng)于不同應(yīng)用的場景的漢字編碼(如繁體字、地理信息字符等)。這些標(biāo)準(zhǔn)大多仍然有效,少部分已失效。下表1-2匯總了這些標(biāo)準(zhǔn)的基本情況,包括標(biāo)準(zhǔn)的編號與名稱、標(biāo)準(zhǔn)的發(fā)布/實施/廢止的時間、相應(yīng)輔助集與基本集的關(guān)系、相應(yīng)輔助集編碼漢字的用途與數(shù)量等情況。
表 1-2:關(guān)于漢字編碼字符集相關(guān)輔助集標(biāo)準(zhǔn)情況
欲詳細(xì)了解我國信息交換用漢字編碼字符集輔助集介紹的請進(jìn)入。
3、《漢字內(nèi)碼擴(kuò)展規(guī)范》(GBK)
這是我國1995年頒布的漢字編碼的一個指導(dǎo)性規(guī)范,它雖然不是國家標(biāo)準(zhǔn),但與國家標(biāo)準(zhǔn)具有等效作用。這是由于在我國,對于漢字等圖形字符的編碼,當(dāng)時既有基本集,又有多個輔助集,使大家執(zhí)行的標(biāo)準(zhǔn)相對較多而帶來一定的麻煩。于是在1995年底,當(dāng)時的電子工業(yè)部與國家質(zhì)量監(jiān)督總局聯(lián)合發(fā)布了《漢字內(nèi)碼擴(kuò)展規(guī)范》(GBK),它與國家標(biāo)準(zhǔn)GB/T 2312-1980信息處理交換碼所對應(yīng)的事實上的內(nèi)碼標(biāo)準(zhǔn)兼容,共有21003個漢字和883個圖形符號,且在字匯一級同時又支持ISO/IEC 10646-1中的全部中日韓統(tǒng)一漢字(CJK)共20902個。
欲詳細(xì)了解GBK所規(guī)范的漢字編碼字符集情況的請進(jìn)入。
4、GB/T 25741《信息技術(shù) 漢字編碼字符集 漢字部首序和筆順序》
在2010年,參照國家語言工作委員會的《漢字部首表(2009年)》和《GB 13000.1字符集漢字部首歸部規(guī)范(2009年)》,國家標(biāo)準(zhǔn)GB/T 25741規(guī)定了GB 18030-2005中雙字節(jié)編碼漢字和漢字部件、四字節(jié)編碼部分漢字共27 533個漢字的排序,包括部首序和筆順序。適用于文字處理軟件或數(shù)據(jù)庫軟件的數(shù)據(jù)項、文件名、任命、地名、書目、大型數(shù)據(jù)倉庫中客戶和產(chǎn)品目錄等的排序;也適用于漢字編碼字符集之中相應(yīng)漢字的排序(部首序和筆順序)。
欲詳細(xì)了解GB/T 25741標(biāo)準(zhǔn)的請進(jìn)入。
5、CNS 11643《臺灣地區(qū)標(biāo)準(zhǔn)漢字字符集》
其全稱為《通用漢字交換碼》。共收入漢字13 053個(不使用簡化漢字)。與CNS 11643-1992對應(yīng)的內(nèi)碼為Big 5碼(俗稱“大五碼”),通常都用Big 5泛指二者。Big 5碼與GB 2312的內(nèi)碼不兼容,需要進(jìn)行轉(zhuǎn)換才能正確地顯示與打印漢字。
6、JIS X 0208《日本工業(yè)標(biāo)準(zhǔn)漢字字符集》
其全稱為《情報交換用漢字符號系》。共收入漢字6355個。其中一級字(即第一水準(zhǔn))2965個,按假名順序排列;二級字(即第二水準(zhǔn))3390個,按部首、筆畫數(shù)排列。
7、KSC 5601《韓國國家標(biāo)準(zhǔn)漢字字符集》
其全稱為《情報交換用字符集》。共收入漢字4888個,其中有268個同音重見字,按韓文讀音排序;還有韓文數(shù)千個。
二、包含漢字字匯的多文種編碼字符集
不同國家和地區(qū)對使用的字符集分別進(jìn)行編碼會產(chǎn)生許多問題。例如,編碼系統(tǒng)會互相沖突,兩種編碼字符集可能使用相同的代碼代表兩個不同的字符,或使用不同的代碼代表相同的字符;任何一臺計算機(jī)(特別是服務(wù)器)都需要支持許多不同的編碼字符集;數(shù)據(jù)在不同的系統(tǒng)之間交換時,總會有損壞的危險。
解決上述問題的方案是采用統(tǒng)一編碼,即不論什么計算平臺,不論什么程序語言,世界各國和地區(qū)使用的所有文字符號都采用一個惟一的代碼。UCS(通用多八位編碼字符集)和Unicode定義的字符集編碼體系結(jié)構(gòu)就是為此目標(biāo)而開發(fā)的。UCS和Unicode兩者完全兼容,其體系結(jié)構(gòu)基于所謂“多八位”編碼(4字節(jié)或2字節(jié))。目前在工業(yè)上實現(xiàn)的均為雙字節(jié)的UCS-2形式,即所有字符都集中在一個平面(共65536個碼位)內(nèi)。UCS/Unicode編碼的體系結(jié)構(gòu)的特點體現(xiàn)于下表2-0中。
表 2-0:UCS/Unicode編碼的體系結(jié)構(gòu)的特點
以UCS/Unicode作為體系結(jié)構(gòu)的包含漢字字匯的多文種編碼字符集有如下幾種,包括國際標(biāo)準(zhǔn)和與之兼容的國家標(biāo)準(zhǔn):
1、ISO/IEC 10646(UCS)/Unicode
ISO/EEC 10646(UCS)/Unicode編碼字符集中的漢字,是遵守中、日、韓(CJK)漢字認(rèn)同甄別規(guī)則而得到的,包括CJK漢字(20902個)、CJK擴(kuò)充A(6582個)和CJK擴(kuò)充B(42 778個),后續(xù)又?jǐn)U充到CJK擴(kuò)充C、D、E、F的共達(dá)17672個漢字。它們源自中國及其臺灣地區(qū)、日本、韓國的13個字符集,它涵蓋所介紹漢字編碼標(biāo)準(zhǔn)之全部。
欲詳細(xì)了解ISO/IEC 10646的通用多八位編碼字符集(UCS)介紹的請進(jìn)入。
欲詳細(xì)了解Unicode編碼字符集介紹的請進(jìn)入。
2、GB 13000《信息技術(shù) 通用多八位編碼字符集(UCS)》
GB 13000是等效采用(IDT)ISO/IEC 10646(UCS)的中國國家標(biāo)準(zhǔn)版本。它首版發(fā)布于1993年,即GB 13000-1993《信息技術(shù) 通用多八位編碼字符集(UCS)第1部分:體系結(jié)構(gòu)與基本多文種平面》,.IDT于ISO/IEC 10646.1:1993。在2003年ISO/IEC將10646.1和10646.2合二為一,于是我國在2010年IDT于ISO/IEC 10646:2003,發(fā)布了GB/T 13000-2010《信息技術(shù) 通用多八位編碼字符集(UCS)》。它包含了世界各國和地區(qū)當(dāng)前主要使用的拉丁字母文字、音節(jié)文字和漢字中的常用字以及各種符號和數(shù)字共49194個。
欲詳細(xì)了解GB/T 13000編碼字符集的請進(jìn)入。
3、GB 18030《信息技術(shù) 中文編碼字符集》
UCS/Unicode編碼中的漢字及其編碼與我國已使用多年的GB 2312和GBK標(biāo)準(zhǔn)并不兼容,為了既能盡快地向ISO/IEC 10646與Unicode編碼標(biāo)準(zhǔn)過渡,又能向下兼容GB 2312和GBK漢字編碼標(biāo)準(zhǔn),因而制定并發(fā)布了GB 18030-2000漢字編碼國家標(biāo)準(zhǔn),并在2001年開始施行,后又在2005年、2022年進(jìn)行了兩次修訂。GB 18030采用單字節(jié)、雙字節(jié)和四字節(jié)編碼,碼位總數(shù)達(dá)160多萬個,能完全映射國際標(biāo)準(zhǔn)UCS/Unicode的基本平面和輔助平面中的字符集。它包含的漢字?jǐn)?shù)目增加到27000多個,同時還收錄了藏文、蒙文、維吾爾文等主要的少數(shù)民族文字,可適應(yīng)出版、郵政、戶政、金融、地理信息系統(tǒng)等領(lǐng)域的用字問題。考慮到我國用戶的需要及解決現(xiàn)有系統(tǒng)的兼容性和對多種操作系統(tǒng)的支持,采用GB 18030是我國目前漢字編碼的較好選擇。目前2022年版共收錄漢字87887個,比上一版增加錄入了1.7萬余個生僻漢字
GB 18030是中文信息技術(shù)領(lǐng)域最重要的基礎(chǔ)性標(biāo)準(zhǔn),對漢字和我國多種少數(shù)民族文字進(jìn)行了統(tǒng)一編碼,需要進(jìn)行中文處理的信息系統(tǒng)均需應(yīng)用此類編碼標(biāo)準(zhǔn),因此標(biāo)準(zhǔn)實施場景豐富、應(yīng)用范圍廣泛,支撐了我國中文信息處理和交換需要。
欲詳細(xì)了解GB 18030的中文編碼字符集的請進(jìn)入。
欲進(jìn)一步了解我國字符編碼標(biāo)準(zhǔn)介紹的請進(jìn)入。