一、語(yǔ)音可壓縮編碼的原因
語(yǔ)音信號(hào)可以進(jìn)行壓縮編碼的基本依據(jù)包括兩個(gè)方面的原因:一方面是語(yǔ)音信號(hào)本身存在很大的冗余度,這是語(yǔ)音可壓縮編碼的外因;另一方面是由于人耳的聽覺感知機(jī)理,這是語(yǔ)音可壓縮編碼的內(nèi)因。
1、外因:語(yǔ)音信號(hào)本身存在很大的冗余度
根據(jù)統(tǒng)計(jì)分析,語(yǔ)音信號(hào)中存在著多種冗余度,可以分別從時(shí)域和頻域來進(jìn)行描述。
1)語(yǔ)音信號(hào)存在時(shí)域冗余度
語(yǔ)音信號(hào)時(shí)域冗余度主要表現(xiàn)在:幅度非均勻分布、語(yǔ)音信號(hào)樣本間的相關(guān)性很強(qiáng)、濁音語(yǔ)音段具有準(zhǔn)周期性和存在靜止系數(shù)(語(yǔ)音間隙)等5個(gè)方面。這5個(gè)方面的具體釋義匯總于下表1-1中。
表1-1:語(yǔ)音信號(hào)時(shí)域冗余度表現(xiàn)的5個(gè)方面
2)語(yǔ)音信號(hào)存在頻域冗余度
(1)非均勻的長(zhǎng)時(shí)功率譜密度。在相當(dāng)長(zhǎng)的時(shí)間段內(nèi)進(jìn)行統(tǒng)計(jì)平均,可得到長(zhǎng)時(shí)功率譜密度,它呈現(xiàn)出強(qiáng)烈的非平坦性。這種非平坦性表現(xiàn)為功率譜的低頻能量較高、高頻能量較低,這恰好對(duì)應(yīng)于時(shí)域上相鄰樣本間的相關(guān)性。這就意味著沒有充分利用給定的語(yǔ)音頻段,或者說存在著固定的冗余度。
(2)語(yǔ)音特有的短時(shí)功率譜密度。語(yǔ)音信號(hào)的短時(shí)功率譜在某些頻率上出現(xiàn)峰值,在另一些頻率上出現(xiàn)谷值。而這些峰值頻率,也就是能量較大的頻率,通常稱為共振峰(Formant)頻率。此頻率不止一個(gè),最主要的是前3個(gè),由它們決定了不同的語(yǔ)音特征。另外,整個(gè)短時(shí)譜也是隨著頻率增加而遞減。更重要的是,整個(gè)功率譜的細(xì)節(jié)以基音頻率為基礎(chǔ),形成了高次諧波結(jié)構(gòu)。
2、內(nèi)因:人耳的聽覺感知機(jī)理
語(yǔ)音信號(hào)可以進(jìn)行壓縮編碼的第二個(gè)依據(jù)是利用人類聽覺的某些特點(diǎn),即人耳的聽覺感知機(jī)理。人的聽覺生理和心理特性對(duì)于語(yǔ)音感知的影響主要表現(xiàn)在以下3個(gè)方面。
1)人類聽覺系統(tǒng)(HAS)具有掩蔽效應(yīng)(ME)。HAS特性曲線隨不同聲音壓、不同頻率聲音的影響而變化形成了所謂的掩蔽曲線(掩蔽閾),它大致表現(xiàn)為聲級(jí)越高的一個(gè)單音對(duì)其周圍頻率聲音的掩蔽作用越強(qiáng)。通俗地講,掩蔽曲線反映了人耳的掩蔽效應(yīng),即一個(gè)強(qiáng)音能抑制一個(gè)同時(shí)存在的弱音而導(dǎo)致人耳聽不到或不敏感這個(gè)弱音。對(duì)人耳聽不到或極不敏感的聲音分量可以看做是冗余。語(yǔ)音壓縮編碼本質(zhì)上就是設(shè)法去掉這些冗余度,從而達(dá)到壓縮比特率的目的。
2)人耳對(duì)不同頻段聲音的敏感程度不同。由于濁音的周期和共振峰主要集中在低頻段,因此人耳對(duì)低頻端比較敏感,而對(duì)高頻端不太敏感,即較強(qiáng)的低頻音能妨礙同時(shí)存在的高頻音。
3)人耳對(duì)語(yǔ)音信號(hào)的相位變化不敏感。人耳能做短時(shí)的頻率分析,對(duì)語(yǔ)音信號(hào)的周期性很敏感,但對(duì)語(yǔ)音信號(hào)的相位感知卻很遲鈍。因此人耳聽不到或感知很不靈敏的聲音相位分量可以被當(dāng)作冗余信號(hào)。
二、語(yǔ)音編碼的極限速率
由于語(yǔ)音信號(hào)本身存在很大的冗余度和人耳的聽覺感知機(jī)理,全語(yǔ)音進(jìn)行壓縮編碼成為了可能,即只對(duì)語(yǔ)音信號(hào)主觀上非常重要的屬性進(jìn)行編碼,并把它們進(jìn)行存儲(chǔ)或者進(jìn)行傳輸。這樣,即使在低比特率的情況下也能保持合成語(yǔ)音的高質(zhì)量。
那么,究竟把比特率降低到何種地步而又不會(huì)使合成語(yǔ)音發(fā)生明顯的失真(不自然)呢?也就是說,語(yǔ)音信號(hào)壓縮編碼的潛力究竟有多大,其極限速率為多少?
在回答這個(gè)問題之前,首先來簡(jiǎn)單了解一下音素的概念。音素是人類發(fā)音的最基本單位,它跟聲音的聯(lián)系最直接,屬于聽覺符號(hào)。比如說,英語(yǔ)f、1、m、n和s這5個(gè)字母都含有一個(gè)共同的音素[e]。又比如說,漢語(yǔ)‘爸’、‘媽’和‘他’這3個(gè)漢字都含有一個(gè)共同的音素[a]。
下面我們就分別從語(yǔ)音和語(yǔ)言的角度來分析語(yǔ)音編碼的極限速率。
從語(yǔ)音的角度來看,語(yǔ)音中最基本的單位是音素,世界上語(yǔ)音的音素一般約為128~256個(gè),如果按通常的說話速度,每秒平均發(fā)出10個(gè)音素。則根據(jù)信息論的觀點(diǎn),此時(shí)的信息率為
V = log2(256)10 = 80 (b/s)
從語(yǔ)言的角度來看,把發(fā)音看成是以語(yǔ)音的速率來發(fā)報(bào)文。對(duì)英語(yǔ)來講,每一個(gè)字母用7b編碼,每分鐘發(fā)125個(gè)英語(yǔ)單字可以認(rèn)為達(dá)到了通信語(yǔ)音速率。如果每個(gè)單字平均由7個(gè)字母組成,則此時(shí)的信息率為
V = 7×7×(125/60)≈100 (b/s)
因此,一般可以認(rèn)為語(yǔ)音編碼的極限速率為80b/s~100b/s。當(dāng)然,這時(shí)只能傳送句子的內(nèi)容,至于講話者的音質(zhì)、音調(diào)等重要信息已全部丟失。但是,從標(biāo)準(zhǔn)的語(yǔ)音編碼速率(64Kb/s)到語(yǔ)音編碼的極限速率(80b/s~100b/s)之間存在著很大的跨距(約640倍),這對(duì)于理論研究和實(shí)踐制作有著很大的吸引力。
欲進(jìn)一步了解語(yǔ)音編碼知識(shí)的請(qǐng)進(jìn)入:語(yǔ)音編碼分類;ITU-T語(yǔ)音編碼標(biāo)準(zhǔn)介紹;語(yǔ)音信號(hào)的特征