集成神經網絡語音情感識別模型研究
文:羅丹青、鄒月嫻、黃東延2017年第四期
背景
情感識別有助于為人機交互提供良好的體驗,是未來計算機必備的一項重要能力,因而近年來語音情感識別已經逐漸成為一個研究熱點,并有了大量應用。雖然早在20世紀80年代就出現了語音情感識別的相關研究,該課題對于機器而言確實較為棘手。此外,相比語音識別領域,用于語音情感識別的公開數據庫少之又少。
語音情感識別系統由兩部分構成,即特征提取器和情感識別分類器。
語音情感識別任務中使用的聲學特征可分為3類:韻律學特征、譜特征和音質特征。其中常用的韻律學特征包括時長、基頻、能量等;譜特征一般有LPC、OSALPC等線性譜特征和MFCC、LPCC等倒譜特征;音質特征一般有共振峰頻率及其帶寬、頻率微擾、振幅微擾和聲門參數等。以上聲學特征由于是從語音幀中提取,表征的是短時音頻的特性,也統稱為低層描述子。然而人們對情感的感知往往蘊藏于某一時間段內情感的波動表達,所以為了在更長的時間范圍內對情感進行描述,通常還計算句子的全局特征。全局特征用于刻畫低層描述子在整句話中的動態變化信息,因此由低層描述子的統計值組成,常見的統計值有均值、極值、變化范圍、豐度、偏度、矩和線性回歸相關參數等。特征設計在傳統的語音情感識別方法中是重要的一環,決定了情感特征的好壞。然而,尋找最優的特征子集是一項繁瑣的任務,也依據不同的數據庫而有所不同。到目前為止,對于語音情感識別任務還沒有一套公認的最優特征集,研究人員大多在實驗中經驗性地選擇所需特征。
根據特征來源和分類器訓練方法的不同,語音情感識別系統可以在兩個層次進行情感的判斷:短語音段層次和完整句子層次。對于短語音段的語音情感識別,一個句子被切分為多個語音段,使用語音段的特征訓練分類器。低層描述子在從語音幀提取出來后,被輸入到序列分類器以模擬說話人的情感分布狀態,這樣的序列分類器通常使用高斯混合模型和隱馬爾可夫模型進行建模。在訓練時短語音段的情感標簽就是所屬句子的情感標簽;測試時,由于一句話有多個語音段的識別結果,對它們進行大多數投票得到最終的識別結果。對于完整句子層次的語音情感識別,分類器輸入的是從整個句子提取的特征。首先由低層描述子和統計函數計算句子的全局特征,最后全局特征輸入到一個判別分類器進行句子情感的識別。這樣的判別分類器包括幾乎所有的傳統分類器,如支持向量機、決策樹、K鄰近模型等。
近年來,深度神經網絡因其具有強大的從原始數據學習層級特征的能力,也被引入了語音情感識別領域。Han等人設計了DNN用于學習短時語音段情感特征,后端使用極限學習機對全局特征進行句子層次的情感分類。Lee等人提出了基于最大似然學習準則的循環神經網絡對隨機語音段標簽序列進行建模,極大提升了語音情感識別的準確率。Mirsamadi等人針對語音情感識別探索了不同的RNN結構,并提出了注意力機制對不同情感重要程度的語音幀進行加權。Mao等人設計了卷積神經網絡來學習語音中顯著具有判別性的情感特征。
在同一個數據庫上比較以上不同的方法,可以發現它們的混淆矩陣有很大差異。盡管使用相同的低層描述子,不同分類器在每個情感類別上都獲得了不一致的識別率。該現象說明單一的分類器無法在所有情感類別上都表現良好,例如可能SVM無法有效識別出“高興”而DNN分類器卻可以。這樣的差異除了與數據不均衡有關,還與分類器自身的建模能力直接相關。
從該結論出發,為了提高語音情感識別的準確率,本文提出一種使用兩類神經網絡作為基分類器的集成學習方法。正如文獻所說,集成系統中的基分類器應該盡可能地具有不同結構來達到更好的泛化性能,本文選擇了適于處理序列數據的循環神經網絡和在圖像分類中性能突出的寬度殘差網絡作為基分類器。
基分類器介紹
1.長短時記憶循環神經網絡
由于本身獨特的結構,RNN擁有強大的處理序列數據的能力。隱含層在前后時間步間的連接使上一步的隱含層狀態能夠傳遞給當前步的隱含層。如此循環傳遞下去,序列中第一步的信息就能傳遞到最后一步,序列相關性得以建模。然而,當輸入序列達到一定長度,由于梯度消失問題RNN的性能會急劇下降,長短時記憶模型就是為了克服該問題而設計的。
總體來說,一個LSTM模塊包括四個元素:輸入門i、遺忘門f、輸出門o和記憶單元c,三個門負責調節記憶單元前后時間步狀態之間的關系。以某個時間步t為例,RNN的輸入是xt,三個門和記憶單元的狀態依次是it、ft、ot和ct,該層LSTM的輸出是ht,它們之間的關系由下式表示:
其中Wx.、Wh.、Wc.分別是輸入層、隱含層輸出、記憶單元與各個門的連接權重;b.代表各個門的偏置。
2.寬度殘差網絡
眾所周知,同樣是出于梯度消失,CNN層數越多越難訓練。為了訓練深層的卷積網絡,殘差網絡得以提出。實驗證明殘差網絡可以在比傳統CNN層數深得多的情況下取得優越的圖像識別性能。受殘差網絡加深層數的啟發,文獻中提出了寬度殘差網絡,以更淺層數、更大寬度的網絡結構進一步提升了圖像識別準確率。
殘差網絡由殘差模塊順序堆疊構成,一個殘差模塊中通常包括兩個卷積層,每個卷積層前面分別有一個批歸一化層和ReLu激活函數層。對比普通的殘差網絡,WRN把每層卷積層中的卷積核個數擴展為原來的K倍,加寬了卷積層以提高它們的特征學習能力。研究表明WRN可以用淺得多的層數達到與普通殘差網絡相同的圖像識別率。圖1展示了一個殘差模塊和一個WRN的結構。圖1中WRN使用了四類殘差模塊,它們的卷積核數目分別為16、、
、
。連續N個同類殘差模塊堆疊為一個組,四組殘差模塊和池化層、softmax層按序堆疊最終構成一個WRN。
集成神經網絡語音情感識別系統
1.RNN語音情感識別子系統
RNN子系統的框圖如圖2所示。其中系統的輸入為句子的特征序列s(1),s(2),…,S(T),T為句子被分割成的段數,同時也是RNN網絡的時間步數,s(t)為句子中第t段語音提取的特征向量。系統計算流程如下:在每一時間步,原始特征向量通過一層全連接層后進入LSTM層;所有時間步的LSTM層輸出在隨后的池化層進行平均,得到這句輸入的全局特征;全局特征輸入softmax層計算句子屬于每一類情感的概率,據此產生識別結果。由于RNN直接對整個句子進行了處理,訓練過程中只需要使用句子的標簽作為訓練目標,訓練中損失函數使用交叉熵。
圖2RNN子系統
RNN輸入的語音段特征s(t)由某個時間窗內的幀特征堆疊而成,給定時間窗長w和幀特征f(t),s(t)可以表示為。本文中,幀特征包括12維MFCC、能量、過零率、基頻、聲音質量和他們的時間差分,共計32維。
2.WRN語音情感識別子系統
WRN子系統的框圖如圖3所示。一句話的頻譜在時間軸上被切分為若干段,頻譜段輸入WRN得到關于每類情感的概率分布。對這些頻譜段的輸出計算統計值作為句子的全局特征,全局特征輸入一層softmax便得到該句話關于每類情感的概率分布,最終得到識別結果。總的來說,WRN子系統由兩部分構成:一個對頻譜段分類的WRN分類器,一個對整個句子分類的softmax分類器。系統訓練時,首先所有訓練樣本被切分為頻譜段,每個頻譜段被賦予所屬句子的情感標簽并輸入WRN訓練,隨后訓練頻譜段在WRN的輸出按所屬句子聚合并計算全局特征,由此softmax的訓練數據變成了以句子為單位并以句子的情感標簽為目標進行訓練。
圖3WRN子系統
該子系統中全局特征按如下方法計算。以句子i為例,假設任務中需識別K類情感,頻譜段s輸入WRN后得到屬于第k類情感Ek的概率為Ps(Ek),對,分別計算以下式子,其中U為屬于i的頻譜段的集合:
,,
,
分別代表i中所有頻譜段屬于Ek的平均概率、最小概率、最大概率和概率大于0.5的頻率,于是i的全局特征可以表示為
。
3.集成神經網絡的語音情感識別系統
集成系統由兩個基分類器和一層集成層softmax組成,如圖4所示。RNN子系統和WRN子系統的輸出結果都是關于情感類別的概率分布向量,為了實現集成,本文把兩個向量相加作為新的全局變量。具體來說,給定訓練集,其中
是語音樣本,
是對應標簽,N是樣本數目,首先分別訓練RNN和WRN子系統,對樣本i,每個子系統都產生一個概率向量,分別記為
和
。兩個向量相加產生新的全局變量
:
(10)
在集成層,就作為訓練數據訓練softmax分類器。
圖4集成網絡語音情感識別系統
測試階段,測試語音同時進入兩個子系統并產生概率分布向量,隨后由式(10)計算全局變量,輸入集成層產生最終的情感識別結果。
結束語
針對語音情感識別任務,本文運用集成方法設計和實現了一種使用循環神經網絡和寬度殘差網絡作為基分類器的集成系統。該方法致力于結合擁有不同架構的深度神經網絡的優勢,從而提高語音情感識別的準確率。特別地,循環神經網絡用于建模序列信息并在句子層次給出識別結果,而寬度殘差網絡學習頻譜段的特征表達并在語音段層次進行識別。實驗證明了該集成系統相比于單分類器語音情感識別系統的有效性,也表明由本文首次引入語音情感識別領域的寬度殘差網絡在這方面有著不遜于主流的基于循環神經網絡方法的性能。令人略感遺憾的是本實驗中由集成方法帶來的性能提升并不突出,可能的原因有兩點,一是實驗采用的數據庫存在數據不均衡的問題,二是集成方法的設計問題。關于這兩點,在未來的工作中,我們將會探索數據增強的方法以緩解數據集分布不均衡的問題,也將嘗試使用不同的集成方法以增強系統對語音情感的建模能力。
中傳動網版權與免責聲明:
凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.siyutn.com)獨家所有。如需轉載請與0755-82949061聯系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。
本網轉載并注明其他來源的稿件,均來自互聯網或業內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。
如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊
- 運動控制
- 伺服系統
- 機器視覺
- 機械傳動
- 編碼器
- 直驅系統
- 工業電源
- 電力電子
- 工業互聯
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機界面
- PLC
- 電氣聯接
- 工業機器人
- 低壓電器
- 機柜