通信系统-通信人在线

歡迎來到通信人在線![用戶登錄] [免費注冊]

關于通用多八位編碼字符集(UCS)

瀏覽:12493  來源:通信人在線  日期:2023-01-31

一、概述

通用多八位編碼字符集(UCSUniversal Multiple-Octet Coded Character Set)是國際標準化組織(ISO)制定的一種字符編碼標準,它是國際標準化組織ISO/IEC制定的旨在實現全球所有文字符號統一編碼的一項重要的國際標準。

1UCS的淵源

字符集及其編碼是計算機系統中表示、儲存、處理和交換文本信息的基礎。有關統計表明,目前世界各個國家和民族幾乎有6 800多種不同的語言和文字在使用。隨著經濟全球化,使用計算機處理、存儲和傳輸任意多種語言文字的需求日益迫切,因而必須為計算機系統建立一個多文種信息處理環境。

我們知道,ISO對字符編碼早就有ISO/IEC 646,它是采用7位二進制數字對ASCII 字符進行編碼,它提供了27 = 128編碼空間,對圖形字符符號和控制字符予以編碼而形成的字符代碼。然而,對于文字字符的編碼采用7位編碼顯然是不夠的。為了兼容已發布使用的ASCII 字符集(ISO/IEC 646),ISO又發布了ISO/IEC 2022它是一個七位編碼向八位編碼過渡的標準,以更便于計算機的信息交換,為后續的多字節編碼提供了一種擴充方法。我國等同采用ISO/IEC 646ISO/IEC 2022發布的標準是GB/T 1988GB/T 2311

欲詳細了解上述兩個標準的請進入GB/T 1988GB/T 2311

許多年來,絕大多數計算機系統所采用的字符集都是以國際標準ISO/IEC 2022為基礎的。ISO/IEC 2022定義了七位代碼和八位代碼的空間及代碼空間的擴充技術,即除了標準ASCII 字符集之外,還有其它幾百種不同的擴充字符集(包括我國的GB 2312GBK漢字字符集)。不同字符集各有一個惟一的代碼頁號。當文本中出現非ASCII 字符時,先使用代碼頁號指出它屬于哪一個字符集,然后才是該字符在字符集中的編碼。由于這些字符集沒有哪一個可以適用于所有的字母、標點符號和常用的技術符號,其編碼還會互相沖突(不同字符集中可能使用相同的代碼代表兩個不同的字符,或使用不同的代碼代表相同的字符),因此不僅使用比較繁瑣,而且在不同的系統中交換數據時,總會有損壞的危險,因互不兼容。

于是,早在1984年,國際標準化組織(ISO)就啟動了通用多八位編碼字符集(UCS)的項目研究。所謂“通用多八位”,就是采用多個八位(字節)對字符進行編碼,若通常采用四個八位編碼,即可提供達13億個編碼空間,其用來容納世界所有文字是綽綽有余的。

2UCS字符集的發布與修訂

基于ISO研究的通用多八位編碼(UCS)技術,在1993ISO首次發布了相應的標準,當時是一個系列標準,由兩部分構成。在1993年首版發布時,僅發布了第1部分,在2000年對第1部分進行了第1次修訂,隨后發布了第2部分。它們是:ISO/EEC 10646-12000《信息技術 通用多八位字符集 1部分:結構和基本的多文種平面》; ISO/EEC 10646-22001《信息技術 通用多八位字符集 2部分:輔助平面》。200312ISO將兩個部分合二為一,修訂為ISO/IEC 106462003《信息技術 通用多八位字符集(UCS)》,收納了基本的多文種平面和輔助平面的內容。通用多八位字符集(UCS)的意義詳見下表1-2

1-2ISO通用多八位字符集(UCS)的意義

后期,ISO不斷的對ISO/IEC 10646進行了多次修訂,截止到2022年底,其最新版本是2020年版,這是對其的第6次修訂版。事實上,ISO10646的每次修訂,對編碼技術的內容修訂變化不大;主要是對編碼字符集的不斷擴充,即對世界各國的文字不斷地收錄到UCS字符集來,如CJK統一漢字擴充,從擴充A目前已到擴充F

3、我國等同采用ISO/IEC 10646的標準

我國在1993年等同采用了ISO/IEC 10646-11993發布了國家標準GB 13000.1-1993;在2010年對其進行了修訂,等同采用的是ISO/IEC 106462003,發布了國家標準GB 13000-2010《信息技術 通用多八位編碼字符集(UCS)》。它在2017年被國家轉化為推薦性標準,不再強制。這些年來,雖然ISO/IEC 10646標準進行了多次的修訂,但GB/T 13000標準并未隨之修訂,這是因為ISO10646標準的修訂對其UCS編碼的技術原理變化不大的緣故。

欲詳細了解GB/T 13000標準修訂情況的請進入

二、UCS字符集簡介

下述主要依據GB/T 13000-2010標準對UCS字符集做一簡要介紹,且重點介紹UCS編碼的技術的內容,對于編碼字符情況應參見ISO/IEC 10646-2020標準。另外,GB/T 13000-2010是由33章和19個附錄所構成,內容太豐富。若要詳細了解GB/T 13000-2010標準具體內容的請查閱下附件。

附件:GB/T 13000-2010《信息技術 通用多八位編碼字符集(UCS)》

1、關于編碼體系結構

UCS使用了一個被視為單一實體并由128個三維組構成的四維編碼空間,它稱為正則形式,其結構如下圖2-1-1所示;其下圖2-1-2為其代碼結構示意;其下圖2-1-3給出了UCS00組結構的布局示意。每個組包含256個二維平面,每個平面包含256一維行,每個行包含256個字位。一個字符在這個編碼空間的一個字位上進行編碼。每個字符均按照其組八位(G八位)、平面八位(P八位)、行八位(R八位)、字位八位(C八位)安排在UCS字符集中。為此,UCS規定了下表2-1所示的平面中的圖形字符和它們的代碼表示,平面類型包括基本多文種平面(BMP)、輔助多文種平面(SMP)、輔助表意文字平面(SIP)和輔助特殊用途平面(SSP)。(注意:在ISO/IEC 10646新版標準中又增加了三級表意文字平面(TIP))

2-1-1UCS的編碼結構示意

2-1-2UCS的代碼空間示意

2-1-3UCS00組的布局結構示意

2-1UCS規定的平面類型

UCS提供了4種字符編碼表示形式,即:雙八位BMP形式(UCS-2)、肆八位正則形式(UCS-4)、UTF-16形式和UTF-8形式。對于源自GB/T 1988ISO/IEC 646)的字匯的字符(ASCII 字符)是它們在原編碼(7位編碼)中進行簡單的加零擴充而進行編碼的,因次,當用8位、16位或32位整數表示時,其編碼表示具有相等的整數值。

2、關于基本多文種平面(BMP

可是,四字節的字符編碼太浪費存儲空間了。比較實際的做法是,在UCS編碼空間中,把第1和第2字節均為“0”的一個子空間,稱為基本多文種平面BMP(即0000平面),作為它的子集來使用,記作UCS-2-2表示雙字節編碼)。該平面可被用作雙八位編碼字符集。注意,UCS-2只包含BMP字匯,因此它與UCS-4UTF-16UTF-8不能完全互操作。在符合雙八位BMP形式(UCS-2)的編碼字符數據元素內,BMP平面中的一個字符應有行八位(R八位)和字位八位(C八位)。

3、肆八位正則形式(UCS-4-輔助平面

輔助平面是指除0000平面(BMP)以外的其它平面,即指0001平面到FF平面(各平面的安排見表2-1)。其中,0110平面中的每個代碼位置都可以唯一的映射到UTF-16形式的肆八位序列,這種形式與UCS-2的雙八位BMP形式兼容。11FF平面和其它組的所有平面留作后續標準化使用。輔助平面的字符均采用肆八位正則形式(UCS-4),即每一個字符是由組八位、平面八位、行八位和字位八位所組成。

4UTF-16形式(0016個平面的轉換格式)

UTF-16 UCS Transformation Form-16)提供了一百多萬個UCS-4 圖形字符的編碼表示形式,這種形式與UCS-2的雙八位BMP 形式兼容。這樣就使得UCS-4 的字符可以與UCS-2 編碼的字符數據共存。在UTF-16中,BMP 字匯中的每個圖形字符都保留其UCS-2 的編碼表示形式。此外,0016 個平面(1 048 576個碼位)的某一連續區域中任一字符的編碼由一對RC 元素(行八位和字位八位)組成,而每個這樣的RC 元素對應于BMP 8 行(2 048個碼位)的某個連續區域中的一個字位。這些代碼位置留給本編碼表示形式使用,不得用于其他目的。UTF-16的相關規定詳見下表2-4;具體轉換要求詳見GB/T 13000的附錄C

2-4UTF-16的相關規定

5UTF-8形式

UTF-8是另外一種能對所有UCS 字符編碼的表示形式。它可用于在某些通信系統上傳送文本數據,而這些通信系統假定00 7F 范圍內的單八位符合GB/T 11383 的定義,其中包括符合GB/T 2311 8 位結構的C0控制功能集。UTF-8 還避免使用那些敏感的八位值,這些值在應用廣泛的文件處理系統中對文件名字符串進行解析時具有特殊的含義。UCS 字符的UTF-8 編碼表示中,八位的個數是16;第一個八位的值指明該編碼表示形式中八位的個數。下表2-5-1給出了UTF-8的特點;具體轉換要求詳見GB/T 13000的附錄D

2-5-1UTF-8的特點

為了與目前大量使用的基于ISO/IEC 2022的單八位系統保持向下兼容,同時避免與數據通信中使用的控制碼發生沖突,UCS在實現時可以將雙字節代碼變換為可變長代碼,最常用的就是UTF-8形式,它按照下表2-5-2給出的規則,把雙字節的UCS-2編碼轉換為單字節、雙字節或三字節和四字節的UTF-8編碼。

2-5-2UCS-2編碼到UTF-8編碼的部分轉換規則

從表中可以看出,標準ASCII 字符仍以單字節代碼(00H~7FH)表示,其他字符如CJK漢字和擴充的拉丁字母、音節文字、標點符號等,需要使用雙字節、三字節或四字節代碼表示。這樣,既保持了與傳統ASCII 文本兼容,避免了與數據通信中控制碼的沖突,又實現了各種字符集的統一編碼。目前,大多數UCS編碼都是以UTF-8編碼形式實現的。

三、UCSUnicodeGB 18030字符集間的關系

Unicode字符集是當初美國的一些IT公司,在1987年開始研究制定的、也是旨在對世界各國文件進行統一編碼的一種字符集規范標準。剛開始其研制思路(主要是編碼技術)有些不同,但鑒于ISOUCS編碼字符集其技術上更為優越,后來兩者進行了融合,并一直保持著協調關系,同步發展,但各自發布著自己的標準文本。事實上,現在都把兩者統稱為UCS/Unicode字符集。

由我國自主研究制定的中文字符集標準GB 18030,在編碼技術上是支持UCS/Unicode字符集要求的,只是GB 18030結合我國文字的實際情況,只收錄了中文字符,包括漢字(含CJK統一漢字)、我國少數民族文字(近十種)和相應圖形符號字符等。

欲進一步了解這些字符編碼的請進入Unicode編碼字符集中文編碼字符集

聯合國兒童基金會助學
© 2004-2025 通信人在線 版權所有 備案號:粵ICP備06113876號 網站技術:做網站
主站蜘蛛池模板: 欣宇航化工-湖北片碱-冰醋酸厂家联系方式-工业氨水价格-工业片碱厂家-武汉宇航化工 | 湖州网站建设_湖州网络公司_湖州后普网络科技有限公司 | 三维建设工程咨询有限公司| 新硕考研_新硕寄宿考研-升学路上的规划师【官网】 | 硫化剂|双马树脂|交联剂-宿迁志晟科技有限公司 | 激光切割加工,佛山激光切割加工,钣金加工,机加工-佛山市华锐达金属制品有限公司 | 浙江德威不锈钢管业股份有限公司 | 学校直饮水机-反渗透纯水设备-家用净水器厂家-广州颖圣能源设备 学校洗碗机-郑州洗碗机厂家-商用洗碗机-郑州旭申环保科技有限公司 | 云南昆明微信公众号小程序开发公司|抖音|网站建设APP制作-鸿翥网络 | 无线计量仪表-电力物联网仪表-CE认证电表 | 自动龙门裁断机-四柱|液压裁断机-吸塑裁断机-东莞市源德机械科技有限公司 | 润东方环保空调厂家-水冷式空调价格-润东方水冷空调-东莞市科骏机电设备有限公司 | 潍坊沃林机械设备有限公司-牵引式风送果园打药机,悬挂式风送果园喷雾机,自走式果树喷药机,车载式风送远程喷雾机-潍坊沃林机械设备有限公司-牵引式风送果园打药机,悬挂式风送果园喷雾机,自走式果树喷药机,车载式风送远程喷雾机 潍坊网络推广,临沂360推广,东营360推广,枣庄360推广,潍坊网站建设,潍坊网络公司,潍坊360搜索,潍坊APP开发,潍坊360推广,潍坊360代理,潍坊点睛网络科技有限公司 | 全国重点实验室--人民网 | 汽车蓄电池配件_蓄电池维护保养产品_叉车电池配件研发生产厂家—联鸿能源 | 上海航空货运,上海空运,东方航空快递,机场物流,航空快运,上海东方航空托运公司 | 山东宝沣新材料有限公司 | 卷帘门,防火卷帘,快速门,硬质快速门,提升门,伸缩门,堆积门,车库门维修-烟台捷曼门业有限公司 | 江寒必恋术在线阅读_江寒必恋术免费下载 - 江寒必恋术电子书 | 冷却塔厂家_冷却塔降噪维修_闭式冷却塔维修改造厂家-广东特菱空调 | 陕西筱润智能科技有限公司 干部人事智能档案柜 智能密集架 智能档案柜 部队选层文件智能柜 智能枪弹柜 财务智能档案柜 边防武警智能密集架 医院智能档案柜 部队选层文件智能柜智能枪弹柜 学校医院文件柜 企事业单位公检法智能文件柜 生产厂家-筱润智能科技有限公司 RFID射频智能密集架 全自动智能选层档案柜 智能密保柜 枪柜部队营房营具床桌椅办公家具 办公用品档案盒设备货架 全自动智能选层柜生产厂家-筱润智能科技有限公司 | 长沙物流公司|湖南货物运输公司|长沙第三方物流公司-国联物流 湖南第三方物流专家 | 厦门,泉州自助餐上门|生日自助餐|婚礼自助餐|公司聚会自助餐|户外烧烤|冷餐|茶歇外卖配送-福建非选餐饮公司 | 油罐_双层油罐_双层油罐厂家|值得信赖-泰安晟鼎金属容器制造有限公司 | 拼接屏-大屏液晶拼接屏厂家-上海LED无缝拼接屏—上海素希 | 无锡防火门|无锡放火卷帘门|无锡市防火卷帘门厂有限公司 | 清扫器-聚氨酯清扫器-合金清扫器-四连杆自动纠偏-机械纠偏-锥辊纠偏-衡水涌泉机械科技有限公司 | 艺考培训-中影人教育 【官网】-中国艺考教育的引航者 | 重庆消杀公司-重庆斗哥环保科技-灭鼠公司-重庆灭蟑螂-除四害-灭老鼠-灭虫-重庆灭白蚁公司 | 空气消毒机厂家-医用空气消毒机-医用空气净化器-山东佳境医疗 | 造雪机|人工造雪机|造雪机价格|造雪机厂家-河南晋安机械科技有限公司 | 三原图库 - 设计图片素材打包下载sytuku.com | 临沂网站建设,临沂网站制作,临沂网络公司,临沂小程序开发,临沂网站设计,沂水网站建设,沂南网站建设,蒙阴网站建设,平邑网站建设,费县网站建设,兰陵网站建设,郯城网站建设,临沭网站建设,莒南网站建设,兰山网络公司 | 无锡鑫润杰金属科技有限公司 | 消防栓保温罩,玻璃钢灭火器箱,玻璃钢消防沙箱-潍坊辰阳玻璃钢有限公司 | 立式/卧式/暖气/管道泵,管道离心泵选型,管道增压泵型号 - 安平鼎千泵业制造厂 | 济宁三石工程机械有限公司-首页-小型起重机、环卫设备、小松配件 | 桥梁支座更换_桥梁检测车租赁_高空作业车出租_支座更换_伸缩缝安装_隧道防水_养护加固_维修_出租_衡水庆兴桥梁养护工程有限公司 桥梁养护|桥梁维修加固|隧道裂缝修补|支座更换|管道堵水气囊|衡水众拓路桥养护有限公司 | 轻型防化服|重型防化服|全封闭防化服|济南三安安全防护设备有限公司 | 河南新百福国际物流有限公司| 江阴市海顺机械设备制造有限公司|