在信息技術不斷發展的過程中,漢字與相關符號的編碼起到了極其關鍵的作用。對于我國,所謂字符,即文字(應包含漢字及少數民族文字等)和符號(文字中用到的相關符號,應包含控制符號和圖形符號等,如字母、數字及符號);所謂字符編碼,即是以固定的順序排列字符,并以此作為記錄、存貯、傳遞、交換的統一內部特征,這個字符排列順序被稱之為“編碼”。“編碼”通常采用單字節、雙字節或四字節編碼。下表0依據我國相關國家標準,給出了相關術語及定義,以幫助對相關字符編碼的理解,包括:字符、編碼字符、字匯、基本集與輔助集等。
表 0:相關字符編碼的術語的定義
為了漢字及符號的信息交換,我國研究制定并發布了一系列的漢字及符號編碼的國家標準及行業標準。這些標準結合我國文字字符的具體情況,同時參照了相關國際標準(目的是與這些國際標準相兼容)這些編碼標準從單字節編碼到雙字節、四字節編碼;字節數的增加帶來了字符字匯在不斷的增加擴充。下述按其發布的順序對我國字符編碼的相關標準,索引式的介紹如下:
一、僅為符號的編碼標準
僅為符號的編碼標準是指沒有包含編碼文字(如漢字及少數民族文字)的一類標準,這類標準往往出臺的較早。當然這類符號編碼由于符號的數量相對較少,其編碼容量也較小,一般采用單字節即七位或八位編碼。
1、GB/T 1988《信息技術 信息交換用七位編碼字符集》
GB/T 1988是于1980年發布的,當初是以強制性標準發布的,即GB 1988-80《信息交換用的七位編碼字符集》,后經過1989年發布了第二個版本(GB 1988-1989)、1998年發布的第三個版本成為GB/T 1988-1998《信息技術 信息交換用七位編碼字符集》,直到現在。GB 1988-1998等效采用的是ISO/IEC 646:1991《信息技術 信息交換用七位編碼字符集》。
GB/T 1988標準規定了由128個字符(控制字符和圖形字符,如字母、數字及符號)組成的字符集以及它們的編碼表示??梢钥闯鲇捎诓捎闷呶痪幋a,其編碼字符數量是給長有限的,沒有涉及到漢字的編碼。
欲詳細了解GB/T 1988規定的字符編碼規則的請進入。
2、GB/T 2311《信息技術 字符代碼結構與擴充技術》
GB/T 2311是于1980年首版發布,當初是以強制性標準發布的,即GB 2311-80《信息交換用七位編碼字符集的擴充方法》,后經過1990年發布了第二個版本,即GB/T 2311-1990《信息處理 七位和八位編碼字符集 代碼擴充技術》,2000年再次修訂后成為GB/T 2311-2000《信息技術 字符代碼結構與擴充技術》。GB/T 2311是等效采用ISO/IEC 2022。
GB/T 2311不是一個編碼字符集的標準,但它非常重要,尤其是在采用多字節字符編碼時。本標準規定了七位代碼的擴充方法,它用于七位環境中,也可用于八位環境中。當GB 1988規定的七位代碼作為信息交換用的約定代碼時,該標準所描述的八位代碼供八位環境中的信息交換用。它是一個七位編碼向八位編碼過渡的標準,以更便于計算機的信息交換,為后續的單字節、雙字節編碼提供條件。
欲詳細了解GB/T 2311-2000標準的請進入。
二、僅包括漢字和符號的編碼標準
我國是一個以漢字為主要文字的國家,由于漢字不是拼音文字,有著獨特的字形結構,而且數量巨大(僅常用的就達六千多個),因此必須結合我國漢字的特點進行字符編碼。當然它采用單字節編碼,顯然其編碼容量是不夠的,往往采用多字節編碼,可達四個字節。同時包括有GB/T 1988中符號的編碼,但不包括其它文字的編碼。
1、GB/T 2312《信息交換用漢字編碼字符集·基本集》
此標準最初是于1980年發布的,并以強制性標準發布,至今沒有修訂,只是根據國家標準化委員會2017年第7號公告和強制性標準整合精簡結論,自2017年3月23日起,該標準轉化為推薦性標準,不再強制。
該編碼字符集根據GB 2311-80《信息交換用七位編碼字符集的擴充方法》提供的擴充技術,通過對GB 1988《信息交換用的七位編碼字符集》所規定C0控制集和G0圖形字符集進行替換和擴充,形成雙字節編碼的新的編碼字符集。該標準規定了漢字信息交換用的基本圖形字符(包括一般符號、序號、數字、拉丁字母、日文假名、希臘字母、俄文字母、漢語拼音符號、漢語注音字母、漢字等)及其二進制編碼表示。
欲詳細了解GB/T 2312介紹的請進入。
2、關于漢字內碼擴展規范GBK
由于GB/T 2312-80中的編碼的漢字數量相對有限,因此,在1995年12月15日由當時的電子部和國家技術監督局聯合以“技監標函[1995] 229號”文件的形式發布了《漢字內碼擴展規范》(GBK),其并沒有以國家標準(GB)發布,而是以技術規范指導性文件發布。但事實上其地位相當于國家標準,其GBK的含義是國標(GB)的擴展(K)。
GBK大大擴充了GB 2312字匯的漢字編碼的字符集,就漢字而言,GBK由GB 2312的6763個漢字一下擴充到21 003個,既包含了GB 2312中內容,又包含了日韓用漢字的內容。
欲詳細了解GBK介紹的請進入。
3、關于漢字編碼字符集相關輔助集標準
對于GB/T 2312《信息交換用漢字編碼字符集·基本集》僅為基本集,為了配合和擴充基本集的使用,我國曾又出臺了7個信息交換用漢字編碼字符相關輔助集的標準,包括第一輔助集(GB/T 12345-90)~第八輔助集(SJ/T 11239-2001),但無第六輔助集。以擴充更多漢字及字符的編碼,或適應于不同應用的場景的漢字編碼(如繁體字、地理信息字符等)。這些輔助集標準除一個電子行業標準外其它都是國家標準;這些標準大多仍然有效,少部分已失效。下表2-3列出了這些標準的編號與名稱及其有效性情況。
表 2-3:我國信息交換用漢字編碼字符相關集輔助集的標準
欲詳細了解我國信息交換用漢字編碼字符相關輔助集內容介紹的請進入。
三、包括有漢字和符號及世界各種文字的編碼標準
1、GB/T 13000《信息技術 通用多八位編碼字符集(UCS)》
該標準最早發布于1993年,并以強制性標準發布,即GB 13000.1《信息技術 通用多八位編碼字符集(UCS)第1部分:體系結構與基本多文種平面》,在2010年進行了修訂成為GB 13000《信息技術 通用多八位編碼字符集(UCS)》。但根據國家標準化委員會2017年第7號公告和強制性標準整合精簡結論,自2017年3月23日起,該標準轉化為推薦性標準,不再強制執行。
欲詳細了解GB 13000標準版本情況的請進入。
我國GB/T 13000等同采用了ISO/IEC 10646《通用多八位編碼字符集》(UCS,Universal Multiple-Octet Coded Character Set)。UCS是解決全世界現代書面文字所使用的所有字符、符號進行統一編碼,以利于國際間的文字信息交換。它包括有中日韓統一漢字(CJK漢字)的編碼。
欲詳細了解GB/T 13000介紹的請進入。
2、GB 18030《信息技術 中文編碼字符集》
GB 18030的首版本是在2000年3月17發布的,即GB 18030-2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》。2005年11月和2022年7月我國又對其進行了兩次修訂,成為GB 18030-2005《信息技術 中文編碼字符集》和GB 18030-2022《信息技術 中文編碼字符集》。
欲詳細了解GB 18030標準版本情況的請進入。
UCS/Unicode編碼中的漢字及其編碼與我國已使用多年的GB 2312和GBK標準并不兼容,為了既能盡快地向UCS/Unicode編碼標準過渡,又能向下兼容GB 2312和GBK漢字編碼標準,信息產業部和國家質量技術監督局在2000年聯合發布了GB 18030-2000漢字編碼國家標準,它統合了GB/T 2312、GBK和GB/T 13000。因此,目前在我國,選用符合GB 18030標準的字符編碼是最實際的選擇,而況它是我國目前在字符編碼標準中唯一的一個強制性國家標準。
欲詳細了解GB 18030介紹的請進入。
下表n匯總了上述我國字符編碼標準所規范的字符(漢字和符號)的數量情況,以供了解。
表 n:我國字符編碼標準所規范字符(漢字和符號)的數量
欲進一步了解漢字鍵盤輸入編碼的請進入。