1、概述
當(dāng)時對廣播來說已經(jīng)有相當(dāng)完備的系統(tǒng)標(biāo)準(zhǔn),但對于通信和計算機應(yīng)用仍是不足,隨著數(shù)字廣播、網(wǎng)絡(luò)游戲、視頻點播等交互式多媒體應(yīng)用的增多,對視頻、音頻內(nèi)容的表示要求更為有效和靈活。于是MPEG-4在1995年7月開始研究,1998年11月被ISO/IEC批準(zhǔn)為正式標(biāo)準(zhǔn),正式標(biāo)準(zhǔn)編號是ISO/IEC14496。
在信源方面,不是簡單地對連續(xù)的圖像和聲音進行壓縮,而是對圖像和聲音進行詳細的分解和描述,將計算機中“對象”(Objects)的概念引入MPEG-4,稱為AV對象(Audio/Visual Objects),對音視頻對象和背景及文字分別進行壓縮,使得更多的交互操作成為可能。甚至采用參數(shù)控制綜合合成的辦法還原圖像和聲音,使效率大大提高。
“AV對象”可以是一個孤立的人,也可以是這個人的語音或一段背景音樂等。它具有高效編碼、高效存儲與傳播及可交互操作的特性。MPEG-4對AV對象的操作主要有:采用AV對象來表示聽覺、視覺或者視聽組合內(nèi)容;組合已有的AV對象來生成復(fù)合的AV對象,并由此生成AV場景;對AV對象的數(shù)據(jù)靈活地多路合成與同步,以便選擇合適的網(wǎng)絡(luò)來傳輸這些AV對象數(shù)據(jù);允許接收端的用戶在AV場景中對AV對象進行交互操作等。
MPEG-4的系統(tǒng)層在原有ES流復(fù)用層(FlexMux)的基礎(chǔ)上擴展了傳送復(fù)用層(TransMux),幾乎包括了所有多媒體、存貯媒體和通信的接口,如(RTP)UDP IP,PES MPEG-2 TS,AAL ATM,H223 PSTN,DABMux等等。使得MPEG-4的系統(tǒng)應(yīng)用極其廣泛。如播音員臉部動畫的綜合,文字到聲音的語音合成等,使解碼處理可擴展到對象的縮放,具有a通道的對象透明度調(diào)整等復(fù)雜場景。也即除自然圖像外,增加了人工合成,創(chuàng)造和處理的痕跡。
2、MPEG-4的組成
MPEG-4標(biāo)準(zhǔn)是由6個主要部分構(gòu)成:
1)多媒體傳送整體框架DMIF:DMIF(The Dellivery Multimedia Integration Framework)主要解決交互網(wǎng)絡(luò)中、廣播環(huán)境下以及磁盤應(yīng)用中多媒體應(yīng)用的操作問題。通過傳輸多路合成比特信息來建立客戶端和服務(wù)器端的交互和傳輸。通過DMIF,MPEG4可以建立起具有特殊品質(zhì)服務(wù)(QoS)的信道和面向每個基本流的帶寬。
2)數(shù)據(jù)平面:MPEG4中的數(shù)據(jù)平面可以分為兩部分:傳輸關(guān)系部分和媒體關(guān)系部分。為了使基本流和AV對象在同一場景中出現(xiàn),MPEG4引用了對象描述(OD)和流圖桌面(SMT)的概念。OD傳輸與特殊AV對象相關(guān)的基本流的信息流圖。桌面把每一個流與一個CAT(Channel Assosiation Tag)相連,CAT可實現(xiàn)該流的順利傳輸。
3)緩沖區(qū)管理和實時識別:MPEG4定義了一個系統(tǒng)解碼模式(SDM),該解碼模式描述了一種理想的處理比特流句法語義的解碼裝置,它要求特殊的緩沖區(qū)和實時模式。通過有效地管理,可以更好地利用有限的緩沖區(qū)空間。
4)音頻編碼:MPEG-4的優(yōu)越之處在于--它不僅支持自然聲音,而且支持合成聲音。MPEG4的音頻部分將音頻的合成編碼和自然聲音的編碼相結(jié)合,并支持音頻的對象特征。
5)視頻編碼:與音頻編碼類似,MPEG4也支持對自然和合成的視覺對象的編碼。 合成的視覺對象包括2D、3D動畫和人面部表情動畫等。
6)場景描述:MPEG-4提供了一系列工具,用于組成場景中的一組對象。一些必要的合成信息就組成了場景描述,這些場景描述以二進制格式BIFS(Binary Format for Scene description)表示,BIFS與AV對象一同傳輸、編碼。場景描述主要用于描述各AV對象在一具體AV場景坐標(biāo)下,如何組織與同步等問題。同時還有AV對象與AV場景的知識產(chǎn)權(quán)保護等問題。MPEG4為我們提供了豐富的AV場景。
3、MPEG-4的類和級
MPEG的類(Profile)規(guī)定了用于協(xié)同操作點(interoperability point)的技術(shù),等級(level)規(guī)定了一個類的范圍或大小。
就類而言,對視像描述來說,分為自然視頻內(nèi)容、自然和合成混合圖像內(nèi)容兩部分。自然視頻內(nèi)容部分的類分為五類;合成的自然圖像混合視像內(nèi)容部分的類分為四類。對圖形描述來說共有兩類。對場景描述共有五類。對音頻的描述有四類。詳見下表1。
表1:MPEG-4的類
就級而言,級是對比特率、取樣率、圖像分辨率及復(fù)雜性進行分級。不可能有沒有級的類,但有的類只有一級。MPEG-4目前有了版本1、版本2,將包括以對象為基礎(chǔ)的空間可分級性。MPEG-4版本2應(yīng)用的例子是HomeNet Processing Laboratory 和逐行掃描清晰度電視編碼器,使用MPEG-4空間可分級對1080行 60幀逐行掃描高清晰度電視進行編碼,MPEG-4空間可分級的性能通常優(yōu)于MPEG-2/4單層編碼,而且所需的幀存也要少12.5%,而且1080P很容易下變換到1080I和720P,該實驗將高質(zhì)量1080P/60的傳輸碼率降至18Mb/s。
標(biāo)準(zhǔn)的修正通常都會增加更多的類和級,如MPEG-4的第二版修正1和2就增加了FGS類,而修正3又增加了簡單可擴展level 0和高級簡單可擴展level 3b。
4、MPEG-4的應(yīng)用
與MPEG-1和MPEG-2相比,MPEG-4更適于交互AV服務(wù)以及遠程監(jiān)控,它的設(shè)計目標(biāo)使其具有更廣的適應(yīng)性和可擴展性:MPEG-4傳輸速率在4800~64000bps之間,分辨率為176×144,可以利用很窄的帶寬通過幀重建技術(shù)壓縮和傳輸數(shù)據(jù),從而能以最少的數(shù)據(jù)獲得最佳的圖像質(zhì)量。因此,它將在數(shù)字電視、動態(tài)圖像、互聯(lián)網(wǎng)、實時多媒體監(jiān)控、移動多媒體通信、Internet/Intranet上的視頻流與可視游戲、DVD上的交互多媒體應(yīng)用等方面大顯身手。
當(dāng)然,對于普通用戶來說,MPEG-4在目前來說最有吸引力的地方還在于它能在普通CD-ROM上基本實現(xiàn)DVD的質(zhì)量。用MPEG-4壓縮算法的ASF(Advanced Streaming format,高級格式流)可以將120分鐘的電影壓縮為300MB左右的視頻流;采用MPEG-4壓縮算法的DIVX(視頻編碼技術(shù))可以將120分鐘的電影壓縮600MB左右,也可以將一部DVD影片壓縮到2張CD-ROM上!也就是說,有了MPEG-4,你不需要購買DVD-ROM就可以享受到和它差不多的視頻質(zhì)量。播放這種編碼的影片對機器的要求并不高,只要你的電腦有300MHz以上(無論是哪種型號)的CPU、64MB內(nèi)存、8MB的顯卡就可以流暢地播放。
不過,和DVD相比,MPEG-4屬于一種高比率有損壓縮算法,其圖像質(zhì)量始終無法和DVD的MPEG-2相比,畢竟DVD的存儲容量比較大。此外,要想保證高速運動的圖像畫面不失真,必須有足夠的碼率,目前MPEG-4的碼率雖然可以調(diào)到和DVD差不多,但總體效果還有不小的差距。因此,現(xiàn)在的MPEG-4只能面向娛樂、欣賞方面的市場,那些對圖像質(zhì)量要求較高的專業(yè)視頻領(lǐng)域暫時還不能采用。