語(yǔ)音編碼質(zhì)量是衡量語(yǔ)音編碼優(yōu)劣的關(guān)鍵指標(biāo)之一。評(píng)價(jià)語(yǔ)音編碼質(zhì)量的方法很多,歸納起來(lái)可以分成兩類(lèi),即客觀評(píng)定法和主觀評(píng)定法。
欲了解幾種低速率語(yǔ)音編碼標(biāo)準(zhǔn)的客觀評(píng)定法和主觀評(píng)定指標(biāo)的請(qǐng)進(jìn)入。
那么對(duì)語(yǔ)音編碼質(zhì)量的評(píng)定采用主觀評(píng)定方法,是因?yàn)檫@符合人類(lèi)聽(tīng)話時(shí)對(duì)語(yǔ)音質(zhì)量的感覺(jué)。語(yǔ)音主觀評(píng)價(jià)方法種類(lèi)很多,常分為可懂度(Intelligibility)評(píng)價(jià)和音質(zhì)(Quality)評(píng)價(jià)兩類(lèi)。音質(zhì)直接反映評(píng)聽(tīng)人對(duì)輸出語(yǔ)音質(zhì)量好壞的綜合意見(jiàn),包括自然度和可辨識(shí)說(shuō)話人能力等方面。而可懂度則反映了評(píng)聽(tīng)人對(duì)輸出語(yǔ)音內(nèi)容的識(shí)別程度。音質(zhì)高一般意味著可懂度也高,但反過(guò)來(lái)卻不一定。
一、音質(zhì)(Quality)評(píng)價(jià)方法
1、平均主觀值法(MOS)
平均主觀值(MOS,Mean Opinion Score)法從絕對(duì)等級(jí)評(píng)價(jià)法(ACR,Absolute Category Rating)發(fā)展而來(lái),用于對(duì)語(yǔ)音整體滿意度或語(yǔ)音通信系統(tǒng)質(zhì)量的評(píng)價(jià)。ACR是用于針對(duì)電話通信的總體質(zhì)量評(píng)價(jià)。MOS與ACR一樣采用5分制的五級(jí)的評(píng)分標(biāo)準(zhǔn),對(duì)話音質(zhì)量進(jìn)行綜合評(píng)定。從發(fā)明電話開(kāi)始,語(yǔ)音質(zhì)量的測(cè)量方式是主觀的,人們摘起一個(gè)電話,然后由人耳來(lái)感知語(yǔ)音的好壞,這個(gè)主觀的語(yǔ)音質(zhì)量測(cè)量方法逐步被完善稱之為平均主觀值MOS方法,定義在ITU-T P.800中。基于該主觀評(píng)測(cè),人類(lèi)接聽(tīng)和感知語(yǔ)音質(zhì)量的行為被調(diào)研和量化,接聽(tīng)何種級(jí)別質(zhì)量的語(yǔ)音,得到多少平均主觀值MOS,人類(lèi)將起主要的反映作用。這個(gè)語(yǔ)音質(zhì)量和平均主觀值的對(duì)應(yīng)關(guān)系為網(wǎng)絡(luò)的配置、基準(zhǔn)和監(jiān)視提供了標(biāo)準(zhǔn)依據(jù)。其MOS評(píng)分標(biāo)準(zhǔn)所對(duì)應(yīng)的分值、語(yǔ)音質(zhì)量級(jí)別、失真級(jí)別及收聽(tīng)注意力等級(jí)(LES,Listening Effort Scale)等詳見(jiàn)下表1-1,MOS法的分值范圍對(duì)應(yīng)的質(zhì)量等級(jí)名稱及質(zhì)量描述詳見(jiàn)下表1-2。
表1-1:MOS法的評(píng)分標(biāo)準(zhǔn)
表1-2:MOS法的質(zhì)量描述
極好的語(yǔ)音音質(zhì)表示重建語(yǔ)音與原始語(yǔ)音是不可區(qū)分的,并且沒(méi)有感知噪聲。相反,極差音質(zhì)表示有非常厭煩的噪聲且表示重建語(yǔ)音有人為噪聲。圖1-1給出了3類(lèi)語(yǔ)音編碼方法(波形、參數(shù)、混合)的比特率與MOS分值的曲線比較。
圖1-1:3類(lèi)語(yǔ)音編碼方法的比特率與MOS分值的曲線比較圖
ITU-T建議P.800標(biāo)準(zhǔn)規(guī)范了幾種傳輸質(zhì)量的主觀和客觀評(píng)價(jià)方法,包括ACR(含MOS)、DCR、CCR等,其中P.800.1給出了MOS的術(shù)語(yǔ);P.800.2給出了MOS的解釋和報(bào)告。欲詳細(xì)了解ITU-T建議的傳輸質(zhì)量主觀評(píng)價(jià)方法的請(qǐng)查閱附件1-1。
附件1-1:ITU-T建議P.800(08/96)
2、失真平均意見(jiàn)分(DMOS)
失真平均意見(jiàn)分(DMOS,Degradation Mean Opinion Score)是由失真等級(jí)評(píng)價(jià)法(DCR, Degradation Category Rating)發(fā)展而來(lái)。在對(duì)高質(zhì)量話音通信系統(tǒng)的評(píng)價(jià)中它比ACR具有更高的靈敏度。在ITU-T P.800建議書(shū)的附錄D中給出了DCR測(cè)試方法,DCR用干擾等級(jí)評(píng)分,在每次評(píng)測(cè)之前需有一參考系統(tǒng),評(píng)聽(tīng)人根據(jù)參考系統(tǒng)判斷被測(cè)系統(tǒng)話音失真的大小,判斷標(biāo)準(zhǔn)列在表1-1中。
3、判斷滿意度測(cè)量法(DAM)
判斷滿意度測(cè)量(DAM,Diagnostic Acceptability Measure)法是由美國(guó)Dynastat公司推出的一種評(píng)價(jià)語(yǔ)音通信系統(tǒng)和通信連接的主觀語(yǔ)音質(zhì)量和滿意度的評(píng)測(cè)方法。它具有一些獨(dú)特的優(yōu)點(diǎn)。首先,它將直接途徑與間接途徑結(jié)合在一起進(jìn)行主觀質(zhì)量評(píng)價(jià)。這里所謂的直接途徑是指要求評(píng)聽(tīng)人針對(duì)語(yǔ)音樣本給出個(gè)人主觀感覺(jué)而不依賴于人為評(píng)價(jià)等級(jí)的劃分;間接途徑則是指評(píng)聽(tīng)人根據(jù)已有的評(píng)測(cè)標(biāo)準(zhǔn),脫離開(kāi)評(píng)聽(tīng)人的主觀喜好來(lái)評(píng)分。這樣,評(píng)聽(tīng)人既可以表達(dá)個(gè)人主觀喜好,又能依據(jù)標(biāo)準(zhǔn)對(duì)每項(xiàng)指標(biāo)進(jìn)行評(píng)測(cè)。例如,在背景噪聲下兩名評(píng)聽(tīng)人或許對(duì)語(yǔ)音樣本的整體滿意度意見(jiàn)不一致,但他們很有可能會(huì)對(duì)語(yǔ)音樣本中摻入噪聲的多少這一指標(biāo)達(dá)成共識(shí)。其次,DAM方法要求評(píng)聽(tīng)人分別對(duì)語(yǔ)音樣本本身、背景和其它因素進(jìn)行評(píng)價(jià)。一個(gè)評(píng)聽(tīng)人可將評(píng)價(jià)過(guò)程劃分為總共21個(gè)等級(jí),其中10級(jí)是考慮語(yǔ)音信號(hào)的感覺(jué)質(zhì)量,8級(jí)考慮背景情況,另外3級(jí)是可懂度、清晰度和總體滿意度。總之,DAM是對(duì)語(yǔ)音質(zhì)量的綜合評(píng)價(jià),是在多種條件下對(duì)語(yǔ)音質(zhì)量可接受程度的一種度量,它和DRT一樣也采用百分比評(píng)分。
二、可懂度評(píng)價(jià)方法
1、判斷韻字測(cè)試法(DRT)
判斷韻字測(cè)試(DRT,Diagnostic Rhyme Test)法是美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)(ANSI)制定的標(biāo)準(zhǔn)之一(ANSI S3.2),它是衡量通信系統(tǒng)話音可懂度或者話音清晰度的一種測(cè)試方法,它主要用于低速率語(yǔ)音編碼的質(zhì)量測(cè)試,因?yàn)榇藭r(shí)可懂度已成為主要問(wèn)題。這種測(cè)試方法使用若干對(duì)(通常為96對(duì))同韻母單字或單音節(jié)詞進(jìn)行測(cè)試,例如中文的“為”和“費(fèi)”,英文的“veal”和“feel”等。測(cè)試中讓評(píng)聽(tīng)人每次聽(tīng)一對(duì)韻字中的某一個(gè)音,然后讓他判斷所聽(tīng)到的音是哪一個(gè)字,全體評(píng)聽(tīng)人判斷正確的百分比就是DRT得分。通常DRT采用百分比的五級(jí)評(píng)定標(biāo)準(zhǔn),其評(píng)定標(biāo)準(zhǔn)所對(duì)應(yīng)的語(yǔ)音質(zhì)量級(jí)別等詳見(jiàn)下表2。
表2:DRT法的評(píng)定標(biāo)準(zhǔn)
在實(shí)際通信中,清晰度為50%時(shí),整句的可懂度大約為80%。這是因?yàn)檎渲芯哂休^高的冗余度,即使個(gè)別字聽(tīng)不清楚,人們也能理解整句話的意思。當(dāng)清晰度為90%時(shí),整句話的可懂度已接近100%。所以對(duì)于低速率語(yǔ)音編碼,一般要求其清晰度能達(dá)到90%以上。
2、改進(jìn)的韻字測(cè)試法(MRT)
改進(jìn)的韻字測(cè)試(MRT,Modified Rhyme Test)也是評(píng)測(cè)通信系統(tǒng)語(yǔ)音可懂度的ANSI標(biāo)準(zhǔn)之一(ANSI S3.2)。測(cè)試材料由6組每組50個(gè)同韻母的字或詞組成,例如,漢語(yǔ)中“干、捍、爛、旦、半、亂”,英語(yǔ)中“pin、sin、tin、fin、din、win”,主要用于區(qū)分起始輔音或末尾輔音。評(píng)聽(tīng)人針對(duì)所聽(tīng)內(nèi)容選擇出6個(gè)詞中哪個(gè)與之相符。
3、判斷中間輔音測(cè)試法(DMCT)和判斷頭韻測(cè)試法(DAT)
從DRT還演變出來(lái)另外兩種測(cè)試方法,即判斷中間輔音測(cè)試(DMCT,Diagnostic Medial Consonant Test)和判斷頭韻測(cè)試(DAT,Diagnostic Auiteration Test),分別用于聽(tīng)辨中間輔音,如英語(yǔ)中的和“stopper”和“stoker”,和末尾輔音,如英語(yǔ)中的“pack”和“pat”。這二者一般不適用于漢語(yǔ)。
其他的還有拼寫(xiě)字母測(cè)試(SpAT Spelling Alphabet Test)、語(yǔ)音平衡字表法(PB, Phonetically Balance Word List)等。
三、其他方法
現(xiàn)在又有許多客觀的測(cè)量方法已經(jīng)出現(xiàn)并被應(yīng)用,諸如:PSQM/PSQM+感知通話質(zhì)量測(cè)量法、PESQ感知評(píng)估語(yǔ)音質(zhì)量測(cè)量法(ITU-T P.862)、PAMS感知分析測(cè)量法(英國(guó)電信)等。PSQM和PAMS測(cè)量方法都需要發(fā)送一個(gè)語(yǔ)音參考信號(hào)通過(guò)電話網(wǎng)絡(luò),在網(wǎng)絡(luò)的另一端采用數(shù)字信號(hào)處理的方式比較樣本信號(hào)和接收到的信號(hào),進(jìn)而估算出網(wǎng)絡(luò)的語(yǔ)音質(zhì)量。語(yǔ)音質(zhì)量煩人感知評(píng)價(jià)法 (PESQ,Perceptual Evaluation of Speech Quality)結(jié)合了PSQM和PAMS的優(yōu)勢(shì),針對(duì)VoIP和混合的端到端應(yīng)用作了改進(jìn),并針對(duì)MOS和MOS-LQ計(jì)算方法做了修改。該方法使用了各種校正(Alignments)和感性方法,相當(dāng)準(zhǔn)確地匹配了主觀MOS分。此外,有必要指出,平均主觀值MOS是廣泛認(rèn)同的語(yǔ)音質(zhì)量標(biāo)準(zhǔn),因此,無(wú)論采用何種方法所有測(cè)量方法都必須對(duì)應(yīng)它們的結(jié)果對(duì)應(yīng)到最終的平均主觀值MOS,以上各種方法均可以最終以MOS值表示。
雖然主觀評(píng)價(jià)方法符合人類(lèi)聽(tīng)話時(shí)對(duì)語(yǔ)音質(zhì)量的感覺(jué),但由于其測(cè)試結(jié)果的獲得依賴于測(cè)聽(tīng)者個(gè)人的主觀感受,所以為了減少個(gè)人反應(yīng)的隨意性和不可重復(fù)性,一般對(duì)測(cè)試所用的設(shè)備、數(shù)據(jù)、測(cè)試條件及測(cè)試人員都有嚴(yán)格的要求,并有繁瑣的測(cè)聽(tīng)程序規(guī)定,非常消耗時(shí)間、人力和費(fèi)用,而且即便如此,測(cè)試結(jié)果仍然存在著一定的不可重復(fù)性,完全相同測(cè)試條件下重復(fù)測(cè)試結(jié)果也會(huì)有一定的隨機(jī)波動(dòng)。所以需要強(qiáng)調(diào)的是,無(wú)論哪種主觀評(píng)價(jià)方法一般要注意下表3-1所列的問(wèn)題。
表3-1:主觀評(píng)價(jià)方法一般應(yīng)注意的問(wèn)題
欲更多了解語(yǔ)音傳輸客觀評(píng)定法和主觀評(píng)定概念的請(qǐng)進(jìn)入。
188.55KB