自從1937年A.H.Reeves提出脈沖編碼調(diào)制(PCM)編碼以來,語音編碼技術(shù)就開創(chuàng)了語音數(shù)字化通信的歷程。近年來,隨著通信技術(shù)的發(fā)展和人類社會(huì)信息化進(jìn)程的加快,語音編碼技術(shù)也正在迅速地發(fā)展,各種語音編碼的新技術(shù)和新算法更是層出不窮,這里匯集了31種語音壓縮編碼方式(或算法)的中英文對(duì)照詳見下表0。因此,對(duì)語音編碼算法進(jìn)行合理地分類,可以讓大家從整體上把握語音編碼技術(shù)的各個(gè)發(fā)展領(lǐng)域。根據(jù)對(duì)語音信號(hào)不同的處理角度,語音編碼可有下述9種不同的分類方法。
表0:語音壓縮編碼方式的中英文對(duì)照表(31種)
欲更多了解各類已標(biāo)準(zhǔn)化的語音及音頻編碼技術(shù)的性能比較的請(qǐng)進(jìn)入。
1、按語音信號(hào)帶寬分類
按語音信號(hào)帶寬分類是根據(jù)語音信號(hào)本身在頻域內(nèi)所占的頻譜寬度進(jìn)行的一種語音編碼分類方法,據(jù)此方法可以將語音編碼分為3種:普通話帶語音編碼、寬帶語音編碼和高寬帶語音編碼。
目前應(yīng)用得最多的是普通話帶語音編碼。標(biāo)準(zhǔn)的話路頻帶(話帶)語音信號(hào)是0.3kHz~3.4kHz,再加上少量的保護(hù)帶寬,則一般意義上所說的一路標(biāo)準(zhǔn)話路頻帶寬度就為4kHz。由于人類發(fā)聲的頻率范圍主要集中在1kHz~3kHz左右,因此這種設(shè)定對(duì)于傳遞語音的主要信息是可以接受的。根據(jù)奈奎斯特準(zhǔn)則,帶寬為4kHz的模擬信號(hào)變成數(shù)字信號(hào)時(shí),采樣頻率應(yīng)為8kHz才能在還原時(shí)不會(huì)出現(xiàn)頻譜重疊。因此,通常所說的語音編碼一般都指的是這種對(duì)話帶范圍內(nèi)的語音信號(hào)經(jīng)8kHz采樣后的數(shù)字語音信號(hào)進(jìn)行的有損壓縮過程。
寬帶語音編碼可以用于電視會(huì)議系統(tǒng)等對(duì)語音要求較高的應(yīng)用領(lǐng)域中。寬帶語音信號(hào)帶寬在7kHz左右,采樣率一般在20kHz左右。國(guó)際電信聯(lián)盟(ITU-T)第16工作組于2002年1月公布的自適應(yīng)多速率寬帶(AMR-WB)語音編碼器的標(biāo)準(zhǔn)為G.722.2協(xié)議,其語音信號(hào)帶寬為50Hz~7000Hz,采樣率為16kHz,屬于寬帶語音編碼的一種。AMR-WB語音編碼器已被第三代伙伴計(jì)劃(3GPP)選定為全球移動(dòng)通信系統(tǒng)(GSM)和第三代寬帶碼分多址(WCDMA)通信系統(tǒng)的語音編碼器,并應(yīng)用于因特網(wǎng)協(xié)議(IP)電話、第三代移動(dòng)通信、綜合業(yè)務(wù)數(shù)字網(wǎng)(ISDN)寬帶電話、ISDN可視電話和電視會(huì)議等領(lǐng)域。這標(biāo)志著無線和有線業(yè)務(wù)第一次采用同樣的語音編碼器。
另外,還有對(duì)更高帶寬的語音信號(hào)的編碼,這就是高寬帶語音編碼。它不僅僅是對(duì)話音信號(hào)的處理,而且還將人耳聽力范圍內(nèi)的音頻信號(hào)(帶寬在20kHz左右)進(jìn)行壓縮,此時(shí)的采樣率一般都在50kHz左右。這一研究領(lǐng)域的應(yīng)用范圍也十分廣泛,比如在電影、高保真音響、電腦音樂及藝術(shù)創(chuàng)作等方面的應(yīng)用。該技術(shù)的應(yīng)用為人類進(jìn)入多媒體信息社會(huì)提供了更為豐富的聲音資源。
欲具體了解各類多媒體信息(音視頻)壓縮編碼技術(shù)的請(qǐng)進(jìn)入。
2、按語音編碼方法分類
語音信號(hào)是一種時(shí)變的準(zhǔn)周期信號(hào),它可以近似地被看做由許多振幅和相位都隨時(shí)間變化的正弦波構(gòu)成的信號(hào),因此可以用語音的抽樣波形來描述語音信號(hào),同時(shí)也可以用語音的參數(shù)特征來描述語音信號(hào)。人們根據(jù)描述語音信號(hào)的不同方法將語音編碼分為3類:波形編碼、參數(shù)編碼和混合編碼。這種按語音編碼方法進(jìn)行的分類也是最傳統(tǒng)和最常用的一種分類方法,目前被大多數(shù)相關(guān)學(xué)者所采用。其特點(diǎn)介紹詳見下表2。
表2:按語音編碼方法進(jìn)行分類的各方法特點(diǎn)
常用的波形編碼方式包括脈沖編碼調(diào)制(PCM)、自適應(yīng)增量調(diào)制(ADM)、自適應(yīng)差分脈碼調(diào)制(AD-PCM),自適應(yīng)預(yù)測(cè)編碼(APC)和自適應(yīng)變換編碼(ATC)等。共振峰聲碼器和線性預(yù)測(cè)聲碼器都是典型的參數(shù)編碼器。多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPLPC)、規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPE- LPC)和碼激勵(lì)線性預(yù)測(cè)(CELP)編碼等都屬于混合編碼。
欲詳細(xì)了解各類語音編碼方法的技術(shù)原理介紹的請(qǐng)進(jìn)入。
3、按語音編碼處理域分類
語音信號(hào)是一種典型的非平穩(wěn)信號(hào),但由于語音的形成過程是與發(fā)音器官的運(yùn)動(dòng)密切相關(guān)的,這種物理運(yùn)動(dòng)比起聲音振動(dòng)速度來講要緩慢得多,因此語音信號(hào)常常可假定為短時(shí)平穩(wěn)信號(hào),即在l0ms~30ms這樣的時(shí)間段內(nèi),語音信號(hào)的某些物理特征參量可近似地看做是不變的。這就決定了語音信號(hào)可以進(jìn)行時(shí)域處理。同時(shí)語音信號(hào)的短時(shí)平穩(wěn)性決定了語音頻譜在l0ms~30ms這樣短的時(shí)間段中也是平穩(wěn)的,因此也可以對(duì)語音信號(hào)進(jìn)行頻譜分析,即頻域處理。
人們根據(jù)語音信號(hào)處理域的不同將語音編碼分為兩類:時(shí)域編碼和頻域編碼(變換域編碼)。顧名思義,時(shí)域編碼就是對(duì)語音信號(hào)在時(shí)間域內(nèi)進(jìn)行相關(guān)處理并進(jìn)行壓縮編碼;頻域編碼就是將語音信號(hào)由時(shí)間域變換到頻域內(nèi)進(jìn)行相關(guān)處理并進(jìn)行壓縮編碼。利用語音信號(hào)本身的性質(zhì)和人類的聽覺特性,可以確定時(shí)域編碼和頻域編碼的分類關(guān)系,如圖3所示。
圖3:時(shí)域編碼和頻域編碼的分類關(guān)系圖
4、按語音編碼速率分類
按語音編碼速率分類是根據(jù)語音信號(hào)進(jìn)行壓縮編碼后進(jìn)行傳輸或存儲(chǔ)所需要的數(shù)據(jù)速率(比特率)進(jìn)行的一種語音編碼分類方法。據(jù)此方法可以大致將語音編碼分為3種:高速率(32Kb/s以上)語音編碼、中速率(4.8Kb/s~32Kb/s)語音編碼和低速率(4.8Kb/s以下)語音編碼,如圖4所示。另外,也有學(xué)者按編碼速率將語音編碼分為5種,詳見下表4。表4和圖4的分類方法沒有本質(zhì)的區(qū)別,只是此方法分得更為詳細(xì)而已。
圖4:語音編碼速率劃分圖(3種) 表4:語音編碼速率劃分表(5種)
從圖4可以看出,編碼速率分類和編碼方法分類基本上是對(duì)應(yīng)的。波形編碼方法通常稱為高速率編碼,其比特率一般都在32Kb/s以上;參數(shù)編碼方法通常稱為低速率編碼,其比特率一般都在4.8Kb/s以下;介于中間的編碼方法屬于中速率語音編碼,也就是混合編碼方法。當(dāng)然,編碼速率分類和編碼方法分類的對(duì)應(yīng)并不是絕對(duì)的,這種對(duì)應(yīng)是一個(gè)相對(duì)的概念,有時(shí)它們相互之間存在著交叉關(guān)系。
欲具體了解按語音編碼速率分類的國(guó)際標(biāo)準(zhǔn)編碼技術(shù)性能的請(qǐng)進(jìn)入。
欲更多了解幾種低速率語音編碼器的合成語音質(zhì)量的主觀和客觀評(píng)價(jià)指標(biāo)的請(qǐng)進(jìn)入。
5、按編碼所使用的主要技術(shù)的分類
按照編碼所使用的主要技術(shù),可以將語音編碼劃分為線性預(yù)測(cè)編碼、自適應(yīng)編碼、矢量編碼和變換域編碼等。其特點(diǎn)詳見下表5。應(yīng)該指出,廣義來說,子帶編碼等頻域編碼也是一種變換域編碼,但其變換通常并非采用正交變換,因此,一般不把它們歸為變換域編碼。而變換域編碼中的DFT變換編碼也可稱為頻域編碼,但其變換屬于正交變換,故一般仍將其歸為變換域編碼。
表5:按編碼所使用的主要技術(shù)進(jìn)行分類的各方法特點(diǎn)
6、按編碼算法是否依賴于某種模型假定的分類
按照編碼算法是否依賴于某種模型的假定,可以將語音編碼劃分為基于模型的編碼和不基于模型的編碼兩大類。有的文獻(xiàn)資料又稱之為模型編碼和非模型編碼。
不基于模型的編碼或非模型編碼,主要是指波形編碼(包括變換編碼)。這類編碼是以波形逼近為原則,直接對(duì)時(shí)域波形或在變換域進(jìn)行編碼。其重建語音的質(zhì)量好,但是編碼所需速率較高。基于模型的編碼是指那些以某種模型的假定為基礎(chǔ)的編碼。這里的模型假定包括語音產(chǎn)生模型和聽覺模型兩方面。基于語音產(chǎn)生模型的編碼有很多種,通道聲碼器、同態(tài)聲碼器、相位聲碼器、共振峰聲碼器、基于全極點(diǎn)聲道模型的線性預(yù)測(cè)聲碼器(LPC)和許多由LPC改進(jìn)而得到的混合編碼方法,都是基于模型的編碼。
7、按被編碼信號(hào)的屬性的分類
按照被編碼信號(hào)的屬性可分為語音編碼和聲頻編碼。所謂聲頻編碼,是指那些非語音的聲音信號(hào)的編碼,例如各種樂器發(fā)出的音樂聲、鳥叫聲、流水聲等的編碼。聲頻編碼又稱為音頻編碼,是語音編碼的一個(gè)重要分支。
8、按編碼速率是否固定的分類
按照編碼速率是否固定,可以將語音編碼分為固定速率語音編碼和變速率語音編碼兩類。在語音編碼過程中,始終保持輸出數(shù)據(jù)速率固定的稱為定速率語音編碼。PCM、ADPCM、MPELP、CELP等大多數(shù)語音編碼都是定速率語音編碼。在語音編碼過程中,根據(jù)輸入信號(hào)的不同情況而改變輸出數(shù)據(jù)速率的稱為變速率語音編碼。第三代移動(dòng)通信中使用的QCELP、EVRC等,就是變速率語音編碼。
9、按編碼出現(xiàn)和應(yīng)用時(shí)間以及技術(shù)發(fā)展情況的分類
按照編碼出現(xiàn)和應(yīng)用的時(shí)間以及技術(shù)發(fā)展情況,可以將語音編碼分為經(jīng)典語音編碼和現(xiàn)代語音編碼兩類。20世紀(jì)70年代末以前出現(xiàn)和應(yīng)用的語音編碼,其技術(shù)發(fā)展已經(jīng)相當(dāng)成熟和完善,例如PCM,稱為經(jīng)典的語音編碼。20世紀(jì)80年代以后出現(xiàn)和應(yīng)用、目前在技術(shù)上仍在繼續(xù)發(fā)展和完善的語音編碼,例如CELP、QCELP等,稱為現(xiàn)代語音編碼。
欲進(jìn)一步了解語音編碼知識(shí)的請(qǐng)進(jìn)入:語音信號(hào)的特征;語音編碼的相關(guān)特性;語音編碼標(biāo)準(zhǔn)介紹