激勵型線性預測語音編碼技術是低速率(4.8Kb/s以下)語音編碼所采用的編碼技術。
1、二元激勵線性預測語音編碼(LPC)
線性預測編碼(LPC,Linear Prediction Coding)是最基本的低速率語音編碼方法,LPC語音編碼的基礎是語音信號產生的數字模型,如圖1-1所示。在這個模型中,激勵源由濁音和清音兩個分支分別組成,是最典型的二元激勵語音編碼模型。而語音信號則是由激勵源來激勵一個自適應濾波器(即LPC濾波器)產生。LPC濾波器的參數是通過線性預測的方法,即用過去的樣值預測當前樣值提取的。LPC在軍事通信和其它通信領域都得到越來越廣泛的應用。
圖1-1:語音信號產生的數字模型框圖
美國聯邦標準FS-1015的2.4Kb/s的LPC-10聲碼器和LPC-l0e(LPC-10的改進型)就是二元激勵LPC語音編碼的典型例子,主要用于電話線上的窄帶語音保密通信。1976年,美國國家安全局(NSA)制定了LPC-10聲碼器作為在2.4Kb/s速率上語音通信的標準技術;1981年,這個算法被美國國防部所接受,作為美國聯邦政府標準FS-1015公布。基于這個標準的聲碼器被用于美國第二代保密電話單元(STU-Ⅱ)。利用LPC-10聲碼器可以合成清晰、可懂的語音,但是抗噪聲能力和自然度尚有欠缺。自1986年以來,美國第三代保密電話單元(STU-Ⅲ)采用了速率為2.4Kb/s的LPC-10e聲碼器作為語音通信標準,使得語音的自然度和魯棒性有所提高,目前STU-Ⅲ的語音質量被評為“良好”。
LPC-10聲碼器的采樣速率是8kHz,每180個樣點為一幀,幀長為22.5ms,每幀量化比特為54,總的速率為2.4Kb/s。
2、碼激勵線性預測語音編碼(CELP)
1985年,Manfred R.Schroeder和Bishnu S Atal在電氣電子工程師協會(IEEE)的國際語言語音和信號處理會議(ICASSP)年會上首先提出了用碼本作為激勵源的碼激勵線性預測(CELP,Code Excited Linear Prediction )編碼技術。CELP以高質量的合成語音以及優良的抗噪聲和多次轉接性能,在低速率語音編碼上得到了廣泛的應用。
1987年美國國家安全局(NSA)發起了4.8Kb/s語音編碼的標準化工作。為了選擇一種好的編碼方案,NSA對各種4.8Kb/s速率的編碼算法進行了一次調查,測試結果表明3種CELP型的編碼算法優于其它方案,但沒有充足的理由選擇其中的某一種作為聯邦標準。1988年5月,美國國防部開始評價幾種4.8Kb/s速率上的語音編碼器,希望找到一種能用于未來政府通信系統中的高質量低速率語音編碼算法。1988年12月,美國國防部結束了這次評價,所選的算法是由美國國防部與美國電報電話公司的貝爾實驗室共同研制的CELP編碼器,它構成了美國聯邦FS-1016標準語音編碼器的基礎。實驗和測試表明該編碼器優于當時其它低于16Kb/s的聲碼器,并且具有很好的抗噪聲和信道誤碼的能力。
1991年2月14日美國政府正式頒布了聯邦第1016號標準FS -1016,即4.8Kb/s碼激勵線性預測(CELP)語音編碼標準,它是第一個十分重要的CELP算法國際標準。FS-1016標準語音編碼器基于合成分析(ABS)、感知加權矢量量化(VQ)和線性預測(LP)等技術。它采用10階線性預測濾波器來模擬語音信號的短時頻譜或聲道特性,并且采用了兩種碼本:自適應碼本和隨機碼本。自適應碼本用來模擬長時信號或基音的周期激勵;固定的隨機碼本用來逼近經過了矢量量化的短時線性預測和長時預測后的預測誤差。譯碼端合成部分的激勵信號由自適應碼本和隨機碼本經過增益加權后得到,感知加權濾波利用人耳的掩蔽效應來提高語音的質量。
FS-1016標準語音編碼器要求輸入語音信號的采樣頻率為8kHz,并且至少12比特線性量化,實際上是16比特線性量化脈沖編碼調制(PCM)語音信號。編碼分析時以幀為單位,幀長是240個樣點(30ms),一幀又分為4個子幀,子幀長是60個樣點(7.5ms)。編碼(發送端)分析部分包含有3個大的功能:短時線性預測分析與量化;長時自適應碼本搜索與編碼;固定(隨機)碼本搜索與編碼。編碼發送的參數是:10個線譜對(LSP)參數;自適應碼本索引及增益;固定碼本索引及增益;加上幀同步,前向糾錯和未來擴展比特共144比特每幀。FS-1016標準語音編碼的特點詳見下表2-1。
表2-1:FS- 1016標準語音編碼的特點表
3、混合激勵線性預測語音編碼(MELP)
美國在1981年公布了聯邦標準線性預測編碼算法LPC-10,即FS-1015標準。但音質不令人滿意,主要是對爆破音的處理不好,后來又提出了增強型的LPC-10e,但終因當時對語音的研究深度不夠,效果也不理想。
在1993年,美國國防部語音信號數字處理協會(DDVPC)開始選擇新的美國國防部2.4Kb/s標準,DDVPC研究制定了一組最低要求并設計了一整套測試方案。組織聽覺測試開始于1995年9月,最后在1996年3月最終選用TI(Texas Instuments)公司推出的混合激勵線性預測(MELP,Mixed Excited Linear Prediction)聲碼器來取代舊標準FS-1015。1997年3月,這個MELP聲碼器算法被最終確定為新的美國聯邦標準并被公布,以替換原有的2.4Kb/s聯邦標準FS-1015 (LPC-10聲碼器)。
基本線性預測編碼(LPC)產生模型將語音分為清音和濁音兩大類。清音模型采用白噪聲作為激勵信號,濁音模型采用周期等于基音周期的脈沖序列作為激勵信號。實際上,由于聲門張開時,除了主要的聲門激勵(形成共振峰)外,還可能有一些次要的激勵,會影響共振峰結構;聲門關閉時,有時不夠完全,會產生一些吸氣噪聲。這些都會破壞濁音時激勵氣流的周期性。尤其是在清音、濁音之間過渡時,這種現象更加顯著,這是由于過渡幀往往既存在周期成分,又存在一定的非周期成分。
為了改善LPC聲碼器的音質,MELP算法把語音分為清音、濁音和抖動濁音3種狀態。抖動濁音采用非周期脈沖加白噪聲作為合成激勵信號,濁音采用周期脈沖加白噪聲作為合成激勵信號。采用這種新的分類模式,對語音的分類更加精細。更為重要的是,它從方法上解決了二元模型對大量“中間”語音不能正確分類的難題,諸如過渡音或較弱濁音等語音的分類。因為那些具有比較強的非周期性的語音(清音)和比較強的濁音是比較容易判別出來的。其它語音采用混合激勵后,無論是把它判作濁音還是抖動濁音,都能夠通過混合比例的調整給予較好的近似。采用的新的分類模式對于諸如過渡音、弱濁音等“中間”語音的處理更加準確。因而,可以較好地改善合成語音的自然度,同時,也可以減少激勵信號中脈沖成分或噪聲成分過多所帶來的合成噪聲,使語音聽起來更清晰。
混合激勵的實現利用了多帶模型:通過一組帶通濾波器將語音信號分成5個子頻帶,分別判斷每個子帶的清濁狀況,在譯碼端利用這5個子帶信號相加得到混合激勵,其主要功能是減少通常的LPC聲碼器所帶有的蜂鳴聲。MELP聲碼器在傳統的二元激勵線性預測模型基礎上做了改進,吸收了多帶激勵(MBE)、LPC-10e等算法的一些思想。并采用了一些新的措施,如改進了基音提取法,引入了非周期脈沖和傅里葉級數幅度值來合成激勵信號等,使得在2.4Kb/s速率上能夠得到更高質量的合成語語音,也就是使得合成語音能更好地擬合自然語音。(MELP)的關鍵技術詳見附錄3,與LPC-10聲碼器類似,MELP聲碼器的采樣速率也是8kHz,每180個樣點為一幀,幀長為22.5ms,每幀量化比特為54,總的速率為2.4Kb/s。
附錄3:混合激勵線性預測語音編碼(MELP)的關鍵技術
欲更多了解國際窄帶語音編碼標準的請進入。
欲詳細了解相關激勵型線性預測語音編碼技術原理介紹的請進入。
欲進一步了解激勵型線性預測語音編碼技術的合成語音質量指標的請進入。