一、導(dǎo)言
目前多媒體系統(tǒng)的特點在于綜合了計算機合成、存儲、通信、處理,以至多媒體的再現(xiàn)演示。其中,值得研究的一個關(guān)鍵問題,即是各種多媒體數(shù)據(jù)信號的同步問題。
不妨先以電影中出現(xiàn)的現(xiàn)象為實例來加以體會或理解,電影膠片的畫面邊緣,制有音跡,在電影放映過程中,在映像投射在影幕的同時,音跡也由放映機進行光電轉(zhuǎn)換,還原出聲音,影片制作時,畫面與音跡同存于一個膠片框內(nèi),而放映時又同時“表現(xiàn)”出來,這就油然完成了圖像和聲音兩媒體對象的嚴(yán)格同步。而在譯制片中,配音演員要注意觀察影片中演員的嘴型動作來配臺詞,這就是所謂的“唇同步”(Lip Synchronization),之中反映了視頻媒體與音頻媒體之間在時間上的相互依存關(guān)系。類似地,影片中還有一些例子,如電影膠片兩邊的齒孔,與放映機的電機配合,按照一定的速度運轉(zhuǎn),速度的快慢會立即相應(yīng)地影響音調(diào)的高低,當(dāng)然影片中畫面所受的影響并非那么靈敏;由于影片膠片的長度所限,兩臺放映機交錯放映,這時兩者的銜接,要由放映員根據(jù)銀幕上出現(xiàn)的用于“同步”的“白點”來進行……
在多媒體系統(tǒng)中,同步的內(nèi)涵則要復(fù)雜得多。一般說來,同步可認(rèn)為是相對時間而言,而更為廣義地認(rèn)為,在多媒體系統(tǒng)中應(yīng)包含多媒體表現(xiàn)的內(nèi)容、空間和時間關(guān)系。這里需區(qū)分時相關(guān)媒體和時無關(guān)媒體。時相關(guān)媒體流中的連續(xù)單元之間有相應(yīng)的時間關(guān)系,如視頻信號包括一定數(shù)量的幀,每一幀均具有固定的時間段。時無關(guān)媒體是一些諸如文本、圖形等類的媒體,其“表現(xiàn)”的意義,并不取決于時間段。在時相關(guān)媒體和時無關(guān)媒體之間則往往存在相應(yīng)的內(nèi)容上的同步關(guān)系,如圖表與語音合釋,圖像或語音與旁白文字注釋等。當(dāng)然從另一角度上看,這兩者之間的內(nèi)容關(guān)系也反映兩者在時間段的關(guān)系。多媒體信息間的空間意義也可有多種反映,如某可視媒體在顯示器屏幕上的顯示位置,先后出現(xiàn)的關(guān)系等;而對于聲音這一不可視媒體,則安排它在聽覺空間與哪一些可視媒體同步。可視媒體之間也有空間關(guān)系,如表現(xiàn)花園別墅的畫面,可從大門開始,然后拉伸鏡頭,反映建筑物與地面之間類似“上下文”的關(guān)系。
在多媒體系統(tǒng)中,同步的內(nèi)涵還應(yīng)含有多層次或多級的劃分。諸如,用戶級同步、復(fù)合對象內(nèi)部同步、系統(tǒng)同步等。從多媒體節(jié)目的創(chuàng)作到演示,涉及了一系列的過程,其中有節(jié)目的腳本、拍攝、數(shù)據(jù)取樣處理,媒體的存儲、傳送、演示再現(xiàn)等等,在其中,應(yīng)指出信息交互。用戶可以控制和使用信息,如反復(fù)調(diào)用有興趣的進球,沖刺畫面,快速掠過不感興趣的部分等等,用戶級同步是交互性參與的同步,在腳本的制作時就應(yīng)考慮用戶的需求。
媒體的處理或傳送是以信息元(BIU,Basic Information Unit),也稱數(shù)據(jù)邏輯單元(LDU,Logic Data Unit)為基本單位,媒體對象可以劃分為若干不同的信息元,并依次序進行串行通信,自然,在再現(xiàn)時也會有媒體間的同步問題。
此外,在通信中媒體不可避免地受到干擾,產(chǎn)生延遲或抖動,乃至LDU次序的變化等,這就需引入系統(tǒng)同步的概念。
總之,多媒體的同步是指協(xié)調(diào)時序關(guān)系的機制,而空間通常可考慮融合入時間概念之中,如是同步的方法主要是基于時間上的方式。
二、同步的分類
同步的分類,包含有內(nèi)容同步、空間同步和時間同步,它們分別描述了媒體對象內(nèi)部或媒體對象之間在內(nèi)容、空間和時間上的關(guān)系。
內(nèi)容同步定義了媒體對象的內(nèi)容或數(shù)據(jù)和表示規(guī)則或表現(xiàn)形式之間的依賴關(guān)系。比如說,數(shù)據(jù)的表格和反映數(shù)據(jù)的圖形,兩者均取于同一組數(shù)據(jù),而表現(xiàn)方式不同;又比如說,有兩種不同的圖形,如直方圖和餅圖,其演示形式不同,但也是基于同一組數(shù)據(jù)。因此兩者在內(nèi)容上相同,只是表現(xiàn)方式不同,或者認(rèn)為是同一內(nèi)容,有不同的描述方式。
在多媒體文件的制作中,內(nèi)容同步的確立是有用的。可以建立表示數(shù)據(jù)與視圖之間映射關(guān)系的“對象接口”,可以輸入相關(guān)的數(shù)據(jù)而不直接去編輯視圖,自動生成相應(yīng)的圖表、圖形等視圖。這也拓展了數(shù)據(jù)庫在多媒體系統(tǒng)中的應(yīng)用。
空間同步一般認(rèn)為是布局關(guān)系,也就是在多媒體的表現(xiàn)中,在某一時刻多媒體對象的空間位置關(guān)系。空間關(guān)系可以是二維或者是三維的。桌面出版物中,空間關(guān)系常用格式或框架來表達,這些框架結(jié)構(gòu)常賦予某一個位置,某一個顯示窗口及相應(yīng)的面積。用戶可以根據(jù)需要,移動窗口,也可放大或縮小窗口,進行相應(yīng)的編輯操作。在三維顯示系統(tǒng)中,可進行三維的投影或全息顯示。三維方式一般采用了重疊窗口方式,如對立體聲的音響輸出可進行布局;又如在會議電視中,與會者的座位,及音響輸出可以進行定位。這樣演示顯得更加自然逼真。系統(tǒng)應(yīng)該允許用戶創(chuàng)建三維顯示,并進行編輯操作。
時間關(guān)系定義了媒體對象及媒體對象間在時間上的時間依賴關(guān)系。這是媒體間關(guān)系的主要方式,在以上所談的內(nèi)容關(guān)系和空間關(guān)系往往也可以歸結(jié)在時間關(guān)系上來描述。
三、同步的分級
1、用戶級同步
交互同步(Interactive Synchronization),或“表現(xiàn)”(Presentation)級同步,是最上層的同步。該級同步需從用戶的角度出發(fā),來設(shè)計模型框架。所設(shè)計的模型要能反映和滿足用戶的交互性,容易為用戶所理解,這種模型一般以時間為控制線索。
多媒體的腳本,類似于電影的腳本,對小說的內(nèi)容,結(jié)合了故事情節(jié)的交化發(fā)展,考慮到何種場景、次序、人物的形象語言等因素,以一個個的鏡頭來呈現(xiàn)給觀眾。但是多媒體腳本還應(yīng)考慮允許用戶的交互參與活動。用戶可以根據(jù)場次的控制,借用菜單選擇等具體手法來控制流程,如反復(fù)觀察某一動作細節(jié),放大局部的圖像,掠過用戶所不愿意或沒有多大興趣的場面等。諸如在外語教學(xué)中,可以反復(fù)收聽難以理解的聽力段落;在欣賞足球比賽的實況轉(zhuǎn)播中,可固定住“越位”或“進球”動作的場面,在了解偵察破案的鏡頭中,可仔細觀察其中的局部細節(jié)等等。這種交互性的參與導(dǎo)致了腳本的場次并非按原定的線性關(guān)系延續(xù),而可有多條路徑。這是多媒體腳本的表現(xiàn)和電影中劇本的表現(xiàn)所不同之處,可以作為多媒體表現(xiàn)的特征。多媒體的表現(xiàn)或演示,相對于電影或電視完全受制于導(dǎo)演的安排而言,允許用戶的介入,正是其魅力之所在。用戶級的同步擴展了多媒體演示的功能。
2、媒體間同步
媒體間同步(Intermedium Synchronization),或稱合成同步,是LDU的合成,或不同媒體類型的數(shù)據(jù)之間的合成,其中蘊含了空間、時間的合成。
要進行數(shù)據(jù)傳輸,必然要把圖像、語音、文字等多媒體信息,轉(zhuǎn)換為數(shù)據(jù)流形式,并依串行方式在通信系統(tǒng)中傳送至用戶端。LDU作為數(shù)據(jù)塊,其大小與應(yīng)用有關(guān),可以是一幀、一復(fù)幀或分鏡頭等。在連續(xù)的媒體流中LDU播放的時間是相同的LDU之間的時序關(guān)系在捕獲或生成的過程中業(yè)已形成,并要求在播放時得到精確的重現(xiàn)。在連續(xù)的LDU之間任何時間的抖動將會影響播放的質(zhì)量。而與時間無關(guān)的媒體沒有媒體內(nèi)部的同步問題,媒體間同步反映了各不同媒體對象之間的同步關(guān)系。唇同步是在自然客觀的情況中,所獲取的視頻和音頻之間的時間關(guān)系。而在很多情況中,各個獨立生成的諸如文字、圖像、旁白等媒體對象,則是依腳本的要求,來指定這些媒體對象之間的時間關(guān)系。
另外,在計算機支持協(xié)同工作(CSCW,Computer Supported Cooperative Work)中,所有的參加者在自己的桌面上有一個相同內(nèi)容的窗口,在該窗口中,有一個公用的指針標(biāo)志,即有一個指針同步(Point Synchronization)。指針同步實質(zhì)上反映了媒體對象之間在時間上的同步關(guān)系。
為了進一步理解媒體間的同步,可以對靜態(tài)和動態(tài)的媒體對象,以及它們之間的同步相合成,作更多的描述。靜態(tài)和動態(tài)是相對于時間軸而言的。若在某個時間段上表現(xiàn)保持不變,則為靜態(tài),而在不同時刻表現(xiàn)的內(nèi)容在不斷地變化,則為動態(tài)。文字注釋屬于靜態(tài)對象,音頻和視頻則可屬于動態(tài)對象。對象的合成包含了靜態(tài)對象和動態(tài)對象的三種組合方式,即靜態(tài)與靜態(tài)、動態(tài)與動態(tài)及靜態(tài)與動態(tài),可分別稱之為靜態(tài)型合成、動態(tài)型合成以及混合型合成,靜態(tài)型的合成對象的表現(xiàn)主要涉及對象各成分之間的空間組織,如黑板與黑板上的粉筆字之間的位置關(guān)系;動態(tài)型的合成對象的表現(xiàn)主要考慮對象成分之間的時間依賴關(guān)系,如運動圖像和語音解說及音樂烘托之間的時序關(guān)系。而混合型合成對象則需要同時考慮在空間和時間兩個方面,如文字與語音的結(jié)合。文字的顯示有空間關(guān)系,而文字的顯示與語音播放相匹配,也就是“寫到哪兒,念到哪兒”,具有時間上的依存關(guān)系。
靜態(tài)與動態(tài)是相對的,靜態(tài)對象在表現(xiàn)時,由于與動態(tài)對象的表現(xiàn)在時間上的關(guān)聯(lián)性,而具有了動態(tài)性,而動態(tài)對象可以看作是許多靜態(tài)對象的組合,在動態(tài)圖像的處理上,動態(tài)圖像往往作為某一個時刻上的靜止圖像來進行加工。同樣空間合成與時間合成不是相互隔離的,而是統(tǒng)一的。多媒體對象在表現(xiàn)過程中與時間相關(guān),同時在每個表現(xiàn)點上也與空間相關(guān)。多媒體之間的合成,或同步,其調(diào)度策略是以時間為主線,附加各自的空間。
3、系統(tǒng)同步
系統(tǒng)同步或多媒體內(nèi)部同步(Intramedia Synchronization)是底層同步。所謂系統(tǒng)同步,是指該層的同步如何根據(jù)各種輸入媒體對應(yīng)的系統(tǒng)設(shè)備的性能指標(biāo)來協(xié)調(diào)實現(xiàn)其上層合成同步所描述的各媒體對象間的時序關(guān)系。在單機條件下,同步技術(shù)要涉及媒體的存取速度,壓縮解壓的生成和還原時間、圖像的顯示和聲音的播放等時間因素,而在通信系統(tǒng)中,則要考慮多媒體數(shù)據(jù)段在傳輸變換中的延遲、抖動、分組中的時間次序錯位、丟失等情況,要考慮不同類型的媒體數(shù)據(jù)段對于通信中的吞吐量、最大時延、最大抖動、允許誤比特率、允許誤分組率的不同的實際要求。此外,還要進一步分析研究經(jīng)過壓縮編解碼的多媒體數(shù)據(jù)在數(shù)據(jù)通信中所受到的影響及其帶來的嚴(yán)重性。故而多媒體通信的同步機制是相當(dāng)復(fù)雜的。對于傳送多媒體的通信平臺,應(yīng)根據(jù)不同媒體對象的需求特點,分析其所需QoS,決定傳輸策略,安排不同的傳輸信道,采用合適的通信規(guī)約,選擇相應(yīng)的交換方式等等。例如對語音可采取延遲短、延遲變化小的傳輸方式,而對數(shù)據(jù)要采用可靠保序的傳輸方式。在通信中需要認(rèn)真考慮的多媒體的同步問題,而在用戶端的媒體輸出時,計算機終端也應(yīng)考慮協(xié)作,承擔(dān)多媒體的同步問題的處理。
在現(xiàn)實情況中,多媒體通信系統(tǒng)是個資源受限的系統(tǒng)。所謂資源受限表現(xiàn)在以下兩個方面。其一通信信道帶寬受限,其次是終端計算機存儲容量受限。如果這兩方面不受限制,同步的情況要好得多。比如說,若信道帶寬不受限制,那么就可以比較好地安排各種媒體信息間的關(guān)系,各種類型媒體流可以及時到達終端,以便于忠實地再現(xiàn)腳本的內(nèi)容。而若存儲的容量足夠大,就可以通過先把所有信息全部接收下來,然后再組織各類媒體數(shù)據(jù)流的方法實現(xiàn)同步播放。當(dāng)然,兩者不可偏廢,若僅僅是容量足夠大,而傳輸帶寬不夠,在存儲器的多媒體數(shù)據(jù)播送完畢,后續(xù)的數(shù)據(jù)流就不能及時跟上,這就可能出現(xiàn)存儲器的“餓死”現(xiàn)象,相當(dāng)于出現(xiàn)一臺放映機放映完畢之后,而另一臺放映機沒有電影膠片,放出“空片”,從而造成斷片現(xiàn)象。若傳輸帶寬非常大,顯然是不經(jīng)濟的;存儲容量過小,又有可能“擁塞”,尚未輸出的部分緩存數(shù)據(jù)會被覆蓋。存儲容量對于帶寬,或者說是對媒體LDU的先后到達,特別在媒體對象類型不同的情況下,起了補償,或者說是緩沖作用。