在信息技術(shù)不斷發(fā)展的過程中,漢字與相關(guān)符號(hào)的編碼起到了極其關(guān)鍵的作用。對(duì)于我國(guó),所謂字符,即文字(應(yīng)包含漢字及少數(shù)民族文字等)和符號(hào)(文字中用到的相關(guān)符號(hào),應(yīng)包含控制符號(hào)和圖形符號(hào)等,如字母、數(shù)字及符號(hào));所謂字符編碼,即是以固定的順序排列字符,并以此作為記錄、存貯、傳遞、交換的統(tǒng)一內(nèi)部特征,這個(gè)字符排列順序被稱之為“編碼”。“編碼”通常采用單字節(jié)、雙字節(jié)或四字節(jié)編碼。下表0依據(jù)我國(guó)相關(guān)國(guó)家標(biāo)準(zhǔn),給出了相關(guān)術(shù)語(yǔ)及定義,以幫助對(duì)相關(guān)字符編碼的理解,包括:字符、編碼字符、字匯、基本集與輔助集等。
表 0:相關(guān)字符編碼的術(shù)語(yǔ)的定義
為了漢字及符號(hào)的信息交換,我國(guó)研究制定并發(fā)布了一系列的漢字及符號(hào)編碼的國(guó)家標(biāo)準(zhǔn)及行業(yè)標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)結(jié)合我國(guó)文字字符的具體情況,同時(shí)參照了相關(guān)國(guó)際標(biāo)準(zhǔn)(目的是與這些國(guó)際標(biāo)準(zhǔn)相兼容)這些編碼標(biāo)準(zhǔn)從單字節(jié)編碼到雙字節(jié)、四字節(jié)編碼;字節(jié)數(shù)的增加帶來了字符字匯在不斷的增加擴(kuò)充。下述按其發(fā)布的順序?qū)ξ覈?guó)字符編碼的相關(guān)標(biāo)準(zhǔn),索引式的介紹如下:
一、僅為符號(hào)的編碼標(biāo)準(zhǔn)
僅為符號(hào)的編碼標(biāo)準(zhǔn)是指沒有包含編碼文字(如漢字及少數(shù)民族文字)的一類標(biāo)準(zhǔn),這類標(biāo)準(zhǔn)往往出臺(tái)的較早。當(dāng)然這類符號(hào)編碼由于符號(hào)的數(shù)量相對(duì)較少,其編碼容量也較小,一般采用單字節(jié)即七位或八位編碼。
1、GB/T 1988《信息技術(shù) 信息交換用七位編碼字符集》
GB/T 1988是于1980年發(fā)布的,當(dāng)初是以強(qiáng)制性標(biāo)準(zhǔn)發(fā)布的,即GB 1988-80《信息交換用的七位編碼字符集》,后經(jīng)過1989年發(fā)布了第二個(gè)版本(GB 1988-1989)、1998年發(fā)布的第三個(gè)版本成為GB/T 1988-1998《信息技術(shù) 信息交換用七位編碼字符集》,直到現(xiàn)在。GB 1988-1998等效采用的是ISO/IEC 646:1991《信息技術(shù) 信息交換用七位編碼字符集》。
GB/T 1988標(biāo)準(zhǔn)規(guī)定了由128個(gè)字符(控制字符和圖形字符,如字母、數(shù)字及符號(hào))組成的字符集以及它們的編碼表示。可以看出由于采用七位編碼,其編碼字符數(shù)量是給長(zhǎng)有限的,沒有涉及到漢字的編碼。
欲詳細(xì)了解GB/T 1988規(guī)定的字符編碼規(guī)則的請(qǐng)進(jìn)入。
2、GB/T 2311《信息技術(shù) 字符代碼結(jié)構(gòu)與擴(kuò)充技術(shù)》
GB/T 2311是于1980年首版發(fā)布,當(dāng)初是以強(qiáng)制性標(biāo)準(zhǔn)發(fā)布的,即GB 2311-80《信息交換用七位編碼字符集的擴(kuò)充方法》,后經(jīng)過1990年發(fā)布了第二個(gè)版本,即GB/T 2311-1990《信息處理 七位和八位編碼字符集 代碼擴(kuò)充技術(shù)》,2000年再次修訂后成為GB/T 2311-2000《信息技術(shù) 字符代碼結(jié)構(gòu)與擴(kuò)充技術(shù)》。GB/T 2311是等效采用ISO/IEC 2022。
GB/T 2311不是一個(gè)編碼字符集的標(biāo)準(zhǔn),但它非常重要,尤其是在采用多字節(jié)字符編碼時(shí)。本標(biāo)準(zhǔn)規(guī)定了七位代碼的擴(kuò)充方法,它用于七位環(huán)境中,也可用于八位環(huán)境中。當(dāng)GB 1988規(guī)定的七位代碼作為信息交換用的約定代碼時(shí),該標(biāo)準(zhǔn)所描述的八位代碼供八位環(huán)境中的信息交換用。它是一個(gè)七位編碼向八位編碼過渡的標(biāo)準(zhǔn),以更便于計(jì)算機(jī)的信息交換,為后續(xù)的單字節(jié)、雙字節(jié)編碼提供條件。
欲詳細(xì)了解GB/T 2311-2000標(biāo)準(zhǔn)的請(qǐng)進(jìn)入。
二、僅包括漢字和符號(hào)的編碼標(biāo)準(zhǔn)
我國(guó)是一個(gè)以漢字為主要文字的國(guó)家,由于漢字不是拼音文字,有著獨(dú)特的字形結(jié)構(gòu),而且數(shù)量巨大(僅常用的就達(dá)六千多個(gè)),因此必須結(jié)合我國(guó)漢字的特點(diǎn)進(jìn)行字符編碼。當(dāng)然它采用單字節(jié)編碼,顯然其編碼容量是不夠的,往往采用多字節(jié)編碼,可達(dá)四個(gè)字節(jié)。同時(shí)包括有GB/T 1988中符號(hào)的編碼,但不包括其它文字的編碼。
1、GB/T 2312《信息交換用漢字編碼字符集·基本集》
此標(biāo)準(zhǔn)最初是于1980年發(fā)布的,并以強(qiáng)制性標(biāo)準(zhǔn)發(fā)布,至今沒有修訂,只是根據(jù)國(guó)家標(biāo)準(zhǔn)化委員會(huì)2017年第7號(hào)公告和強(qiáng)制性標(biāo)準(zhǔn)整合精簡(jiǎn)結(jié)論,自2017年3月23日起,該標(biāo)準(zhǔn)轉(zhuǎn)化為推薦性標(biāo)準(zhǔn),不再?gòu)?qiáng)制。
該編碼字符集根據(jù)GB 2311-80《信息交換用七位編碼字符集的擴(kuò)充方法》提供的擴(kuò)充技術(shù),通過對(duì)GB 1988《信息交換用的七位編碼字符集》所規(guī)定C0控制集和G0圖形字符集進(jìn)行替換和擴(kuò)充,形成雙字節(jié)編碼的新的編碼字符集。該標(biāo)準(zhǔn)規(guī)定了漢字信息交換用的基本圖形字符(包括一般符號(hào)、序號(hào)、數(shù)字、拉丁字母、日文假名、希臘字母、俄文字母、漢語(yǔ)拼音符號(hào)、漢語(yǔ)注音字母、漢字等)及其二進(jìn)制編碼表示。
欲詳細(xì)了解GB/T 2312介紹的請(qǐng)進(jìn)入。
2、關(guān)于漢字內(nèi)碼擴(kuò)展規(guī)范GBK
由于GB/T 2312-80中的編碼的漢字?jǐn)?shù)量相對(duì)有限,因此,在1995年12月15日由當(dāng)時(shí)的電子部和國(guó)家技術(shù)監(jiān)督局聯(lián)合以“技監(jiān)標(biāo)函[1995] 229號(hào)”文件的形式發(fā)布了《漢字內(nèi)碼擴(kuò)展規(guī)范》(GBK),其并沒有以國(guó)家標(biāo)準(zhǔn)(GB)發(fā)布,而是以技術(shù)規(guī)范指導(dǎo)性文件發(fā)布。但事實(shí)上其地位相當(dāng)于國(guó)家標(biāo)準(zhǔn),其GBK的含義是國(guó)標(biāo)(GB)的擴(kuò)展(K)。
GBK大大擴(kuò)充了GB 2312字匯的漢字編碼的字符集,就漢字而言,GBK由GB 2312的6763個(gè)漢字一下擴(kuò)充到21 003個(gè),既包含了GB 2312中內(nèi)容,又包含了日韓用漢字的內(nèi)容。
欲詳細(xì)了解GBK介紹的請(qǐng)進(jìn)入。
3、關(guān)于漢字編碼字符集相關(guān)輔助集標(biāo)準(zhǔn)
對(duì)于GB/T 2312《信息交換用漢字編碼字符集·基本集》僅為基本集,為了配合和擴(kuò)充基本集的使用,我國(guó)曾又出臺(tái)了7個(gè)信息交換用漢字編碼字符相關(guān)輔助集的標(biāo)準(zhǔn),包括第一輔助集(GB/T 12345-90)~第八輔助集(SJ/T 11239-2001),但無第六輔助集。以擴(kuò)充更多漢字及字符的編碼,或適應(yīng)于不同應(yīng)用的場(chǎng)景的漢字編碼(如繁體字、地理信息字符等)。這些輔助集標(biāo)準(zhǔn)除一個(gè)電子行業(yè)標(biāo)準(zhǔn)外其它都是國(guó)家標(biāo)準(zhǔn);這些標(biāo)準(zhǔn)大多仍然有效,少部分已失效。下表2-3列出了這些標(biāo)準(zhǔn)的編號(hào)與名稱及其有效性情況。
表 2-3:我國(guó)信息交換用漢字編碼字符相關(guān)集輔助集的標(biāo)準(zhǔn)
欲詳細(xì)了解我國(guó)信息交換用漢字編碼字符相關(guān)輔助集內(nèi)容介紹的請(qǐng)進(jìn)入。
三、包括有漢字和符號(hào)及世界各種文字的編碼標(biāo)準(zhǔn)
1、GB/T 13000《信息技術(shù) 通用多八位編碼字符集(UCS)》
該標(biāo)準(zhǔn)最早發(fā)布于1993年,并以強(qiáng)制性標(biāo)準(zhǔn)發(fā)布,即GB 13000.1《信息技術(shù) 通用多八位編碼字符集(UCS)第1部分:體系結(jié)構(gòu)與基本多文種平面》,在2010年進(jìn)行了修訂成為GB 13000《信息技術(shù) 通用多八位編碼字符集(UCS)》。但根據(jù)國(guó)家標(biāo)準(zhǔn)化委員會(huì)2017年第7號(hào)公告和強(qiáng)制性標(biāo)準(zhǔn)整合精簡(jiǎn)結(jié)論,自2017年3月23日起,該標(biāo)準(zhǔn)轉(zhuǎn)化為推薦性標(biāo)準(zhǔn),不再?gòu)?qiáng)制執(zhí)行。
欲詳細(xì)了解GB 13000標(biāo)準(zhǔn)版本情況的請(qǐng)進(jìn)入。
我國(guó)GB/T 13000等同采用了ISO/IEC 10646《通用多八位編碼字符集》(UCS,Universal Multiple-Octet Coded Character Set)。UCS是解決全世界現(xiàn)代書面文字所使用的所有字符、符號(hào)進(jìn)行統(tǒng)一編碼,以利于國(guó)際間的文字信息交換。它包括有中日韓統(tǒng)一漢字(CJK漢字)的編碼。
欲詳細(xì)了解GB/T 13000介紹的請(qǐng)進(jìn)入。
2、GB 18030《信息技術(shù) 中文編碼字符集》
GB 18030的首版本是在2000年3月17發(fā)布的,即GB 18030-2000《信息技術(shù) 信息交換用漢字編碼字符集 基本集的擴(kuò)充》。2005年11月和2022年7月我國(guó)又對(duì)其進(jìn)行了兩次修訂,成為GB 18030-2005《信息技術(shù) 中文編碼字符集》和GB 18030-2022《信息技術(shù) 中文編碼字符集》。
欲詳細(xì)了解GB 18030標(biāo)準(zhǔn)版本情況的請(qǐng)進(jìn)入。
UCS/Unicode編碼中的漢字及其編碼與我國(guó)已使用多年的GB 2312和GBK標(biāo)準(zhǔn)并不兼容,為了既能盡快地向UCS/Unicode編碼標(biāo)準(zhǔn)過渡,又能向下兼容GB 2312和GBK漢字編碼標(biāo)準(zhǔn),信息產(chǎn)業(yè)部和國(guó)家質(zhì)量技術(shù)監(jiān)督局在2000年聯(lián)合發(fā)布了GB 18030-2000漢字編碼國(guó)家標(biāo)準(zhǔn),它統(tǒng)合了GB/T 2312、GBK和GB/T 13000。因此,目前在我國(guó),選用符合GB 18030標(biāo)準(zhǔn)的字符編碼是最實(shí)際的選擇,而況它是我國(guó)目前在字符編碼標(biāo)準(zhǔn)中唯一的一個(gè)強(qiáng)制性國(guó)家標(biāo)準(zhǔn)。
欲詳細(xì)了解GB 18030介紹的請(qǐng)進(jìn)入。
下表n匯總了上述我國(guó)字符編碼標(biāo)準(zhǔn)所規(guī)范的字符(漢字和符號(hào))的數(shù)量情況,以供了解。
表 n:我國(guó)字符編碼標(biāo)準(zhǔn)所規(guī)范字符(漢字和符號(hào))的數(shù)量
欲進(jìn)一步了解漢字鍵盤輸入編碼的請(qǐng)進(jìn)入。