通信系统-通信人在线

歡迎來到通信人在線![用戶登錄] [免費注冊]

關(guān)于Unicode編碼字符集

瀏覽:5741  來源:通信人在線  日期:2023-02-02

一、Unicode的淵源

1Unicode的誕生

Unicode編碼字符集(Unicode Coded Character Set)源自于美國。我們知道,最早的編碼字符集是采用的7位二進制編碼,如美國信息交換標準代碼(ASCII)。7位二進制編碼可以有27 = 128個編碼位組,最多能為128個字符進行編碼。然而當字符中包含文字字符(如漢字及世界其它國家文字等)時,128個編碼位組顯然是不夠用的。

欲具體了解ASCII編碼字符介紹的請進入

于是,在1987年初,美國的施樂(Xerox)公司的Joe Becker倡議將計算機字符集編碼碼位擴充到更的多位數(shù),以收納世界上各國各種文字,并開始研究,其研究的內(nèi)容主要體現(xiàn)在下表1-1所示的方面,但重點是兩個:

1-1Unicode起步所研究的內(nèi)容

一是采用的編碼位數(shù)。其實在當時,國際上已有不少字符集編碼標準采用了16位(雙字節(jié))編碼,如我國的GB 2312-80、臺灣的Big5等。于是,Xerox公司的研究時考慮16位編碼,采用16位編碼,其碼位位組可達216 = 65536個編碼位組。當初Xerox公司研究的時65536個編碼位組是否能夠容納全世界所有文字字符的編碼。最終研究的結(jié)果是,采用16位二進制編碼(雙字節(jié)),應(yīng)該可以對全世界所有文字字符進行編碼。這里需要指出的是,他們這種決定對于漢字,尤其是中、日、韓所用漢字采用統(tǒng)一編碼,且是按抽象字符編碼,而不是對字形或者字意編碼。

二是采用的碼位長度。決定采用雙字節(jié)編碼后,面臨兩個選擇:一是采用變長編碼形式(如我國的 GB 2312標準),對于 ASCII 字符使用一個字節(jié),其它字符使用兩個字節(jié);另一種是采用定長編碼形式,不管是不是 ASCII 字符,所有字符編碼統(tǒng)一使用兩個字節(jié)。最終研究的結(jié)果是,采用定長編碼形式。采用定長編碼形式的好處是顯而易見的,就是避免了使用代碼擴充技術(shù)。

鑒于上述的研究,最終的研究成果于 1988 8 月以草案的形式發(fā)布(后稱為 Unicode 88)。他們將其字符集編碼標準被命名為“Unicode”,在我國又翻譯稱統(tǒng)一碼、聯(lián)合碼或萬國碼。為了推動Unicode的開發(fā)與應(yīng)用,1991年當時的美國一些信息技術(shù)公司,如IBMDECSunXeroxAppleMicrosoftNovell等公司共同出資在加州成立Unicode聯(lián)盟The Unicode Consortium),并由協(xié)會設(shè)立非贏利的Unicode公司,來推動Unicode的開發(fā)與應(yīng)用工作。

欲具體了解GB 2312-80漢字編碼字符介紹的請進入

2Unicode標準的歷程

于是,在Unicode 88草案的基礎(chǔ)上,于199110 月發(fā)布了 Unicode 的第一版(Unicode 1.0.0)。該版僅包含 24 種語言文字共 7163 個字符,但該版本中并未包括CJK漢字。在19926月發(fā)布了 Unicode 的第二版(Unicode 1.0.1);該版本中加入了20902 CJK統(tǒng)一漢字。下表1-2-1匯總了Unicode標準版本信息,包括版本號與發(fā)布年份等。2021 9 月發(fā)布Unicode 14.0.0版本,該版本支持 159 種文字,共包含 144697 個字符(包括控制字符、文字符號、表情符號等)。目前,Unicode 15.0.0 版本已于20229月發(fā)布。該版本增加了 4488 個字符(包括20 個新的表情符號(Emoji)字符和4193CJK表意文字),共有 149186個字符。

1-2-1Unicode標準的版本信息(截止到20231月)

注意,Unicode標準新的版本將是代替以前的版本。Unicode 標準的版本號是由三個字段組成,分別依次表示主要版本、次要版本和更新版本。它們的含義區(qū)別詳見下表1-2-2

1-2-2Unicode標準新的版本號的含義區(qū)別

二、與ISO的合作

1、關(guān)于ISO的研究

其實,早在1984年,國際標準化組織(ISO)就啟動了通用多八位編碼字符集(UCS)的項目研究,初始的技術(shù)方案遭到了美國上述部分信息技術(shù)公司的抵觸的。從“通用多八位編碼”的名字就可以看出ISO采用的多字節(jié)編碼,即單字節(jié)、雙字節(jié)乃至四字節(jié)的不定長編碼的方案,對于ASCII 字符仍采用單字節(jié)長度編碼;對于世界文字字符常采用雙字節(jié)編碼,同時設(shè)計了四字節(jié)編碼,需要時可將文字字符置于四字節(jié)編碼區(qū)。顯然,ISO研究制定的字符編碼體系是優(yōu)越的,其容量宏大(編碼位組多)、字符編碼使用靈活(可按文字的字形、部首、筆畫等進行編碼)、兼容早期字符編碼方案(ASCII 字符編碼);適用于世界各種文字及符號,包括世界上曾經(jīng)出現(xiàn)過但現(xiàn)今很少使用的、以及今后將新產(chǎn)生的文字符號。

欲具體了解國際標準化組織(ISO)介紹的請進入

ISO 方案相比,Unicode 88草案中的方案明顯存在以下不足:

一是定長雙字節(jié)編碼無法與ASCII 字符編碼兼容。我們知道,采用7位編碼的ASCII 字符的編碼標準是在上世紀六十年代就開始實行了,這期間已大量地應(yīng)用于多種編程軟件及規(guī)范標準之中。Unicode 88開始對ASCII 字符采用雙字節(jié)編碼,就要求已應(yīng)用的7位編碼的ASCII 字符的編碼方案都重新修訂過來,這顯然是不現(xiàn)實的、是不切合實際的。

二是編碼位組容量相對捉襟見肘。Unicode 88采用16位二進制編碼,可以提供65536個編碼位組,在Unicode最初的研究中其容量是夠用的。因為研究的出發(fā)點是僅編碼現(xiàn)用的世界各國文字字符、很少考慮按字形編碼(尤其是CJK漢字,不考慮其文字的表意)等等。顯然這種出發(fā)點是好的,它可以簡化編碼體系,然而它卻限制了要編碼的文字符號,嚴重影響了實際中文字信息化的處理與通信。

2UnicodeUCS的融合

從標準的組織制定形式上來講, ISO以國家成員體為基礎(chǔ)而制定的;Unicode則是以公司為基礎(chǔ)的集團制定的。相對于字符集編碼標準,ISO由各成員國的參與,標準的研究制定顯然更充分些、更周全些。鑒于上述Unicode 88草案方案的不足,1991年,在包括中國在內(nèi)的各ISO成員過和信息領(lǐng)域的許多信息技術(shù)(IT)大企業(yè)的推動下,UnicodeUCS兩大標準實現(xiàn)了相互對齊、合二而一。Unicode 1.0版和ISO/IEC第一個ISO草案DIS 10646.1進行了雙方都可接受的修改,將它們的組合庫合并為一個單一的數(shù)字字符編碼。這項工作在Unicode 1.1版中達到了高潮。

此后,這兩個標準一直保持著協(xié)調(diào)關(guān)系、同步發(fā)展。ISO/IEC 10646 -1:1993Unicode 1.1標準的編碼字符(碼位和名稱)完全相同。Unicode 3.0版等同于ISO/IEC 10646-12000Unicode3.1版等同于ISO/IEC 10646-22001。總體上,ISO/IEC 10646-12000Unicode 3.0ISO/IEC 10646-22001 Unicode 3.1的內(nèi)容、編碼、命名是完全相同的。但在一些細節(jié)上,兩個標準仍然有一些差別的。關(guān)于Unicode標準與ISO/IEC 10646標準各版本之間的關(guān)系詳見下附件2

附件 2Unicode標準與ISO/IEC 10646標準各版本之間的關(guān)系

三、Unicode編碼字符集介紹

截止到20231月,Unicode 15.0.0 版本是Unicode編碼字符集的最新版本。它是由核心規(guī)范(其目錄詳見下表3所示)、代碼圖表、標準的附錄、Unicode字符數(shù)據(jù)庫(UCD)等構(gòu)成;若要詳細了解該版本核心規(guī)范具體內(nèi)容的請查閱下附件3;若要Unicode V15.0.0標準其它內(nèi)容請在其Unicode聯(lián)盟網(wǎng)站查閱。

3Unicode V15.0.0核心規(guī)范目錄

附件 3Unicode編碼字符集標準核心規(guī)范(V 15.0.0

事實上,Unicode編碼字符集(Unicode Coded Character Set)與國際標準ISO/IEC 10646完全兼容并同步發(fā)展的一種通用的字符編碼標準,雖然他們各自發(fā)布自己版本的標準。

欲進一步了解UCS編碼字符介紹的請進入

附錄
聯(lián)合國兒童基金會助學(xué)
© 2004-2025 通信人在線 版權(quán)所有 備案號:粵ICP備06113876號 網(wǎng)站技術(shù):做網(wǎng)站
主站蜘蛛池模板: 墨子百科-专业有趣的问题小百科 莫非传媒官网-江西知名的网络营销推广服务平台南昌网络公司,专业网络公关,品牌危机处理,网站SEO优化,微信朋友圈广告,网站建设,南昌莫非文化传媒有限公司 | 喷涂机器人|自动喷涂生产线|自动喷涂设备|自动化生产线-深圳市荣德机器人科技有限公司 | 柚墨yomoer官网_PPT模板_工作总结PPT模板下载_个人简历模板 | 启东华立石油化工机械设备有限公司|过滤器|混合机|消声器|混合器|管道过滤器|空气过滤器|精细过滤器 | 久久91精品久久91综合_国产亚洲自拍一区_国产精品第1页_亚洲高清视频一区_91成人午夜在线精品_亚洲国产精品网站在线播放_亚洲国产成人久久综合区_国产精品亚洲专区在线观看_免费视频精品一区二区三区 | 湖州搬家公司_档案搬迁_货物运输_钟点搬运价格「湖州蓝天家政综合服务有限公司」 | 制砂机-合金-耐磨锤头-耐磨衬板-铸造件厂家-巩义市豫园宏宇铸造有限公司 | 正规网上赚钱网站「百赚网」专注在家赚钱的网络赚钱平台 | 直冷式块冰机|片冰机|块冰机|制冰机厂家|深圳市冰之星制冷科技有限公司 | 组合式空调机组-吊顶式新风换气机-消防高温排烟风机-德州宏楚空调设备有限公司 | 联智通达_工控一体机_工业触摸一体机_工业一体机_工业触控一体机_POS机主板_工控主板_国产化主板_RK3588主板厂商-联智通达 | 履带式移动破碎站-移动筛分站-移动碎石机-破碎机_山东奥凯诺矿机 | 金属网帘|金属帘|装饰网帘|金属环网|金属幕墙网|金属垂帘|金属扣帘-安平县名图金属丝网制品有限公司 | 原创软文新闻稿-网站SEO文章代写-征文演讲稿代笔-写作阁 | 无锡大型数控龙门铣,喷涂加工,回火抛丸加工,精密不锈钢焊接机床身机床底座制造加工-无锡美高帝机械有限公司 | 煤泥烘干机,酒糟烘干机,药渣烘干机,酵母烘干机,烘干机厂家-瑞奥新能源 | 陕西散花照明-西安太阳能路灯,陕西太阳能路灯,西安太阳能路灯厂家,陕西太阳能路灯厂家 | 排烟风机-屋顶风机-消防高温排烟风机-山东凯亿空调 | 抛丸机-通过式抛丸机-履带吊钩式抛丸机厂家-青岛泓霖智能设备公司 | 乳化泵-高剪切乳化机-减速机支架-乳化罐-釜底乳化机【厂家】-浙江奥盛机械 | 武汉净化机-武汉全热新风换气机-武汉静音送风机-武汉东信新风节能设备有限公司 | 智能照明模块,智能动力控制器,巨川电气-智能电气领航 | 阻抗分析仪 阻抗测试仪 介电常数测试仪 充电枪测试仪-苏州腾斯凯电子科技有限公司 | 新硕考研_新硕寄宿考研-升学路上的规划师【官网】 | 英格索兰隔膜泵_ARO气动隔膜泵_英格索兰隔膜泵配件【原厂正品】连续五年无投诉_英格索兰隔膜泵代理-苏州瑞晟茂环保设备有限公司 印刷公司,北京印刷厂,宣传画册手册印刷厂-和智印彩页设计 | 木屑烘干机|酒糟烘干机|果渣烘干机_郑州东鼎机械 | 石家庄华龙鼎电动门,石家庄电动门电话,石家庄电动门配件,石家庄电动门维修电话,石家庄电动门安装电话,石家庄华龙电动门 | 无锡市钧辉机械制造有限公司 | 真空热处理-渗碳热处理-氮化热处理-[东莞德亿]专业热处理加工厂家 | 环保除尘设备_燃气/燃油热水锅炉_光氧空气净化器_蒸汽玉米压片机_压片设备_烘干设备-山东金盾节能环保设备有限公司 | 徐州恒铭机械设备有限公司_装载机配件_压路机配件_起重机配件_挖掘机配件_配件_徐州恒铭机械设备有限公司 | 陕西西安升降机_导轨式升降货梯_电动固定剪叉式升降平台_甘肃兰州液压机械厂家 | 郫都人才网_郫都招聘网_求职找工作平台 | 棕色土壤采样瓶,棕色小口水样采样瓶-上海迈隆科技有限公司 | 汽车标签|医疗标签|电子标签|手机电池标签|电脑电池标签|电源标签|耐高温标签|防静电标签|手机出厂膜|手机全裹膜|手机包裹膜|手机卖点膜|热转印标签|遮阳板标签|天势科技|-标签印制专家! | 绍兴凯渥人力资源有限公司-劳务派遣,劳务分包,代办公司注册 | 幼儿园设计公司/南昌酒店装修/办公室/餐厅/民宿/店面/展厅/装修设计公司-益昌装饰集团 | 慢直播摄像头厂家,监控直播摄像机厂家,景区慢直播设备,rtmp推流直播摄像头,实时摄像头监控直播-监控慢直播厂家:专注监控慢直播系统解决方案 | 内蒙古浩泽环保集团股份公司,内蒙古环保设备,内蒙古污水处理,内蒙古在线监测 | 鑫金牛建设工程(苏州)有限公司 | 航星洗涤机械有限公司_洗脱机_烘干机_烫平机_折叠机|