漢字及我國少數民族文字是一類表意文字,因此其文字數量巨大,其編碼使用的位組就相當的龐大,通常需要雙字節或四字節來編碼。它不像英文是一類拼音文字,只需要對26個英文字母等進行單字節編碼。為此,為了使中文(包括漢字及我國少數民族文字等)在信息處理、交換、傳輸和呈現等,必須進行二進制編碼,形成編碼字符集,這里的字符集稱之為圖形字符集。為此,關于中文編碼字符集我國出臺了多個國家標準以規范之。下述對這類國家標準情況進行介紹。
欲更多了解我國字符編碼標準介紹的請進入。
一、第一個含有漢字編碼字符集的國家標準:GB/T 2312
1、標準的基本情況
我國第一個包含有漢字編碼字符集的國家標準,是1980年3月9日發布的GB 2312-1980《信息交換用漢字編碼字符集 基本集》,并于1981年5月1日起實施。它是由當時的國家第四工業機械部提出,由當時的國家標準總局發布的。該標準至今沒有修訂,但仍然有效。只是自2017年3月23日起,根據國家標準化委員會2017年第7號公告和強制性標準整合精簡結論,該標準轉化為推薦性標準,不再強制。
2、標準的內容組成情況
GB/T 2312-1980《信息交換用漢字編碼字符集 基本集》規定了漢字信息交換用基本圖形字符及其二進制編碼表示,適用于一般漢字處理、漢字通信等系統之間的信息交換。該標準的內容主要是由5章、3個附錄和3個索引所組成,其章節、附錄和索引的名稱詳見下表1-2。
表 1-2:GB/T 2312-1980標準的目錄
欲詳細了解GB/T 2312-1980標準原文具體內容的請進入。
3、有關說明
第一,在1980年我國發布GB/T 2312時,它稱作基本集,因它編碼的漢字僅有常用的6763個,為此我國又發布了諸多個輔助集的標準,以擴充更多的漢字或適應更多應用場景的漢字,以配合GB/T 2312-1980的基本集的應用。
欲具體了解我國漢字編碼字符集輔助集標準情況的請進入。
第二,即使我國發布了漢字編碼字符集的基本集和多個輔助集的標準,仍然不能滿足我國編碼漢字的使用需要,甚至多個標準為大家施行帶來很大不變。為此,在1995年12月15日,當時的電子部和國家技術監督局聯合以“技監標函[1995] 229號”文件的形式頒布了《漢字內碼擴展規范(GBK)》(1.0版)。該規范僅是一個國家部門的技術規范指導性文件,并不是以國家標準的形式發布,因此這里不按國家標準介紹。關鍵是該規范已被GB 18030-2000標準代替而作廢了。
欲具體了解我國《漢字內碼擴展規范(GBK)》介紹的請進入。
二、等同采用(IDT)國際漢字編碼字符集標準的國家標準:GB/T 13000
1、 標準的基本情況
為了世界各種文字編碼, ISO/IEC制定了信息交換用世界各國文字編碼字符集的標準,即ISO/IEC 10646《信息技術 通用多八位編碼字符集(UCS)》。由于它容納了各國文字的編碼,需要大量的編碼位置,因此,它的編碼體系與GB/T 2312-1980不同,即它采用了多八位的編碼方式,通常是雙八位(用兩個八位表示一個字符)或肆八位(用四個八位表示一個字符)。在通用多八位編碼字符集(UCS)中也包括漢字,它稱之為中、日、韓(CJK)統一漢字。
最初ISO/IEC 10646《信息技術 通用多八位編碼字符集(UCS)》是以系列標準發布的。它的第一部分是1993年發布的ISO/IEC 10646.1《信息技術 通用多八位編碼字符集(UCS) 第一部分 結構和基本的多文種平面》(曾于2000年進行了第1次修訂)。它的第二部分是2001年年發布的ISO/IEC 10646.2《信息技術 通用多八位編碼字符集(UCS) 第二部分 輔助平面》。2003年12月ISO將兩個部分合二為一,修訂為ISO/IEC 10646《信息技術 通用多八位編碼字符集(UCS)》。
因此,我國在1993年等同采用(IDT)了ISO/IEC 10646.1:1993,發布了GB 13000.1-1993《信息技術 通用多八位編碼字符集(UCS) 第一部分 體系結構和基本的多文種平面》。在2010年對GB 13000.1-1993進行了第1次修訂,修訂時等同采用(IDT)了ISO/IEC 10646:2003,發布了GB 13000-2010《信息技術 通用多八位編碼字符集(UCS)》。但根據國家標準化委員會2017年第7號公告和強制性標準整合精簡結論,自2017年3月23日起,該標準轉化為推薦性標準,不再強制執行。這兩個版本標準的基本情況詳見下表2-1,包括標準歷次版本的名稱(有變化情況)、發布時間與實施時間、摘要與適用范圍等。
表 2-1:我國通用多八位編碼字符集(UCS)的標準基本情況
2、標準的修訂情況
修訂本GB/T 13000-2010代替了GB 13000.1-1993。該次修訂對GB 13000.1-1993的變動主要表現在下表2-2所列的內容。
表 2-2:GB/T 13000-2010對GB 13000.1-1993修訂變化的主要內容
3、標準的內容組成情況
GB 13000.1-1993標準的主要內容是由26章和13個附錄所構成,其章節與附錄的名稱詳見下表2-3-1。它采用通用多八位編碼字符集(UCS)方式對兩萬多個漢字進行了字符編碼。
表 2-3-1:GB 13000.1-1993的目錄
GB/T 13000-2010標準是對GB 13000.1-1993的修訂,但標準的內容組成增加了許多,它是由33章和19個附錄所構成,其章的名稱與附錄的名稱具體詳見下表2-3-2。
表 2-3-2:GB/T 13000-2010的目錄
欲詳細了解GB/T 13000-2010標準原文具體內容介紹的請進入。
三、良好兼容性漢字編碼字符集的國家標準:GB 18030
1、 標準的基本情況
在當時,我國關于漢字編碼字符集的標準有GB/T 2312、GBK、GB/T 13000,為使用帶來了一定的不便,需要考慮互相兼容的問題。為此,我國開始逐步統一這些相應的漢字編碼體系及其字符集的容量及數量。于是,我國又發布了GB 18030標準,其首版本發布于2000年,目前又在2005年和2022年進行兩次修訂,這三個版本標準的基本情況詳見下表3-1-1,包括標準的名稱(有變化)、標準的發布時間與實施時間、標準的摘要與適用范圍等情況。該標準目前是我國在漢字編碼方面唯一的一個強制性標準,但各版本的強制性要求有所不同,具體要求詳見下表3-1-2。
表 3-1-1:GB 18030標準的基本情況
表 3-1-2:GB 18030標準各版本的強制性要求
2、標準的修訂情況
GB 18030標準,目前已經歷了三個版本,其后版本對前版本在修訂時,變化的主要內容匯總于下表3-2中。另外,GB 18030-2022版修訂時,內容變化較大,不但構成內容的結構進行了調整,而且對雙字節編碼區的字符有所調整,對四字節編碼區增加了大量的字匯。下附件3是一個對GB 18030-2022版本的編制說明,可供通信人參考。
表 3-2-:GB 18030標準相應版本修訂變化的主要內容
附件 3:GB 18030-2022版本標準的編制說明
3、標準的內容構成情況
GB 18030-2000《信息技術 信息交換用漢字編碼字符集 基本集的擴充》標準當時是以GB/T 2312的擴充而編制,所以稱之為基本集的擴充。因此,該標準向下與GB/T 2312信息處理交換碼所對應的事實上的內碼標準兼容;然后在字匯上支持GB/T 13000.1-1993的全部CJK統一漢字和全部CJK統一漢字擴充A的字符。對于GB 18030-2000標準的主要內容是由8章和5個附錄所構成,其章、節和附錄的名稱詳見下表3-3-1。注意:GB 18030-2000實施之日起代替了《漢字內碼擴展規范(GBK)》(技監標函[1995] 229號)。
表 3-3-1:GB 18030-2000標準的目錄
GB 18030-2005《信息技術 中文編碼字符集》標準與GB 18030-2000標準相比,主要是在四字節編碼部分增加了CJK統一漢字擴充B的字符和我國少數民族文字的字符。該版標準的主要內容也是由8章和5個附錄所構成,且其章、節和附錄的名稱同表3-3-1。
GB 18030-2022《信息技術 中文編碼字符集》標準與GB 18030-2005標準相比,標準的內容結構進行了調整;同時對雙字節編碼區的字符有所調整;關鍵是對四字節編碼區增加了大量的圖形字符,主要包括CJK統一漢字、CJK統一漢字的擴充C~擴充F,及我國少數民族文字的字符等。該版標準的主要內容也是由9章和5個附錄所構成,且其章、節和附錄的名稱詳見下表3-3-2。
表 3-3-2:GB 18030-2022標準的目錄
欲詳細了解GB 18030-2022標準原文具體內容的請進入。
欲進一步了解語音編碼技術的標準情況的請進入。
317.56KB