利用PSQM和PESQ的測量方法在實驗室能夠很好地應用于分析話機的質量。但是這些測量方法不適用于在數據網絡上分析語音質量,是基于傳統的電話網絡。它們的缺點主要是,測量不是基于數據網絡的,不能反映諸如延時、抖動和丟包等數據網絡特有的問題,沒有考慮網絡故障對用戶感覺造成的影響,單純的從收發信號差異的角度分析網絡語音問題。為了克服這些缺點,國際電聯的G.107標準提出了E-model,它關注數據全面的網絡損傷因素,很好地適應在數據網絡中語音質量的評估。
E-model的前提是假設語音質量損傷因素總是物理附加的,簡單說來就是,如果諸如噪聲、回音、延時、編碼器性能、抖動等網絡損傷因素能夠被靈活的加入,那么網絡的一個全面客觀的質量等級或稱為“呼叫者體驗”的因素就能夠被估計。
1、E-model的基本算法公式及其與MOS值的對應
E-model用來作為算法最終結果的是R值,被稱為全面的網絡傳輸等級要素,取值范圍從0到100。R值的計算從沒有網絡和設備的損傷影響開始,此時語音質量是最好的,R=R0。 R0是無網絡延時和設備損傷因素的基本信號與收發噪聲以及電流、背景噪聲之比,即基本信噪比。但是因為網絡和設備損傷因素的存在,減少了通過網絡的語音質量,R值的基本計算公式如下,其中各符號的含義詳見下表1。
R=R0 -Is-Id -Ie +A
表1:式中各符號的含義
由公式可知,全面的語音質量(R值)的計算是通過首先估計一個連接的信噪比(R0),然后從中減去網絡損傷(Is,Id,Ie),最后再用呼叫者對語音質量的期望(A)進行補償后得到。實際應用中,基本公式中的輸入R0、Is、Id和Ie,每一個都需要考慮各種各樣的實際網絡損傷因素,通過非常復雜的數學計算而得到。
前面已經講過,任何的測量方法,最終都將對應為MOS值標準,E-model也一樣。由于網絡數據與實際語音之間存在轉化過程,這樣固有的損耗使得R值最大只能到93.2,也就是平均主觀值MOS只有4.4。G.107的R值默認最大為94。
欲進一步了解MOS評價方法的請進入。
2、語音編碼方式、延時、抖動和丟包對R值的影響
網絡損傷的主要因素包括語音編碼、回聲、平均包延時,抖動和包丟失率。回聲產生于IP網絡與傳統PSTN相連處,在單一VoIP網絡內部暫不討論。在一個僅由編碼、延時、抖動和丟包造成系統失真的情況下,R的計算公式可以簡化如下:
R= R0 -I(CODEC)-I(DELAY)-I(PDV)-I(PACKET LOSS)
下面將討論這四個主要損傷因素對R值的影響。
在語音處理中,編碼(CODEC)是以硬件或軟件的方式去采樣語音和決定數據包的速率。ITU標準定義了差不多十幾種編碼方式,每一種都有不同的特點。低速的編碼方式占用更少的帶寬,但是因為使用有損的壓縮算法,低速編碼更加削弱了語音質量。在實際情況中,選擇低速的編碼方式能夠在相同的連接上建立更多的呼叫,但是引入了更大的延時,使語音質量對丟包也更加敏感。因此選擇越低速率的編碼方式,將明顯地減少E模型的R值,當然這也不是完全絕對的。
延時(DELAY)是指話音從發起者到接收者所經過的時間,一般而言,端到端的延時由以下四部分組成:傳播延時、傳送延時、包轉化延時和抖動緩沖延時,其含義詳見下表2。延時會引起語音會話過程的空白,帶來語音的變形和會話的中斷,也就是說,延時的增大導致了R值的減小。延時的時長在100~200ms之間開始被收聽者所察覺,使得會話不自然。建議的延時上限為150ms,若延時達到200ms則開始有嚴重的會話中斷。
表2:四種延時的含義
抖動(PDV),也叫做延時的變化,是指在一個VoIP呼叫過程中所有發送的數據包到達的時間差異。當一個數據包發送時,發送端在RTP報文頭上增加一個時間戳;當在另一端被接收時,接收端同樣增加另一個時間戳;計算這兩個時間戳可以得到這個數據包的通路時間。如果在一個呼叫中包含不同的通路時間,則存在抖動。在視頻應用程序中,抖動表現為圖像閃動,而在電話呼叫中,它表現的效果與丟包產生的效果相似,某些字詞聽不清楚或錯誤。抖動的大小取決于數據包的通路時間的差異程度,差異程度越大,則抖動也越大。如果抖動值大于50ms,則平均主觀值MOS值劇烈地降低,認為是極差的語音質量。通過增加抖動緩沖的數量,可以有效地降低抖動的影響,但是增加了一毫秒的抖動緩沖,則相應增加了一毫秒的網絡延時。
丟包(PACKET LOSS)是一個影響語音質量的關鍵因素。數據包發送端和接收端之間的數據包數目的差值即為網絡傳輸丟失包數目。VoIP使用RTP實時傳輸協議傳輸語音數據包,雖然可以利用RTP報文頭的序列號檢查數據包的丟失和亂序,但是它并沒有重傳機制。任何丟包和亂序都將影響語音的質量。網絡主要有兩種類型的丟包情況,一種是或多或少的隨機丟包,當網絡保持沖突碰撞時,就會偶爾有一個或兩個數據包發生丟失;另一種是爆裂丟包,是指連續一個以上的數據包丟失,會顯著地影響語音質量,明顯減小R值。當少量的丟包是隨機地分布時,人耳并不容易感覺到較差的語音質量。
E-model測量方法正是將這些網絡的損傷因素充分予以考慮,以此作為對網絡語音質量的全面傳輸評估,真正意義上的研究了數據包化的語音呼叫的質量問題。
3、運用E-model對實時的VoIP網絡進行語音質量測量
一種E-model在實時網絡測量中的應用,就是測量幾個有限的E模型參數,同時估計其它非測量參數,從而運算出反映網絡全面傳輸質量的R值。一種客觀的語音質量測量輸出了MOS值,將該MOS值轉換為Ie參數,與此同時根據網絡信息查找E模型參數參考表得到非測量參數的值,最后將所有的參數進行運算,得到最終的反映全面質量的R值。
除此之外,有的測量儀器廠商設計的基于E-model的評估工具,能夠在數據網絡的軟件代理之間產生RTP數據流去模擬VoIP語音呼叫,每次這個模擬VoIP語音呼叫運行時,網絡延時,抖動和丟包將作為測量結果而被記錄,這個測量通過E-model計算公式得到一維的結果R值,然后再對應到平均主觀值MOS。此時,并沒有真實的語音信號通過數據網絡,與以前的諸如VQT一類的測量儀器使用真實語音信號通過數據網絡的測量方法是完全不同的。