基于主辅网络特征融合的语音情感识别

胡德生,张雪英,张 静,李宝芸

(太原理工大学 信息与计算机学院,太原 030024)

摘 要:为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。

关键词:语音情感识别;主辅网络;长短时记忆单元;卷积神经网络

语言是人类交流最方便、最快捷的方式,语言中包含的情感信息在交流时发挥着重要作用。让机器像人一样具备说话、思维和情感能力,是人工智能领域一直追求的目标。语音情感识别的研究,将推动这一目标的逐步实现。

典型的语音情感识别模型由语音情感数据库、特征提取和识别3部分组成[1],提取有效情感特征是语音情感识别的关键。传统的语音情感识别首先分帧提取Mel频率倒谱系数(Mel frequency cepstral coefficients,MFCC)等声学特征,然后提取所有帧的最大值、最小值、均值、方差等统计特征作为语音信号的全局特征[2-4]。由于全局特征是在句子级别上提取统计特征,所以其只能粗略反映语音情感随时间变化的特性。针对这个问题,段特征的概念被提出,首先将语音信号分段,每段包含若干帧语音,对这若干帧语音各自提取声学特征后,再计算这段语音的多个统计特征作为段特征。文献[2]将段特征直接输入基于注意力机制的长短时记忆单元(long short-term memory,LSTM)网络提取深度特征并分类,与全局特征相比取得了较好的效果。

语谱图是一维语音信号在二维时频域的展开,能够充分反映语音信号在时频域大部分信息。卷积神经网络(convolutional neural networks,CNN)由于其自动学习特征的能力和适用于二维图像数据的特点,目前被广泛用在语谱图中提取特征,进一步提高语音情感识别性能[5-8]。如文献[8]先将语谱图输入全卷积网络(fully convolutional networks,FCN),并在最后一层卷积层使用注意力机制,最后进行情感识别,在IEMOCAP数据集上其WA(weighted accuracy)和UA(unweighted accuracy)分别达到70.4%,63.9%.

近年来,国内外学者提出多种混合网络模型用于将不同类型的特征进行特征融合,提升了语音情感识别的性能[9-11]。文献[9]提出HSF-CRNN模型,采用CRNN网络对语谱图提取深度特征,将全局特征输入全连接层,最后将两者拼接进行情感识别;文献[10]提出Attention-BLSTM-FCN模型,在Mel语谱图上分别应用Attention-BLSTM网络和Attention-FCN网络,然后将两个网络提取的深度情感特征以直接拼接的方式进行特征融合,最后输入全连接层进行分类识别。虽然这些方法取得了一定的效果,但将不同类型的特征简单拼接起来作为识别网络的输入,没有考虑不同特征的量纲和维度的差异,以及各类型特征实际物理意义的不同,会对识别结果带来不利影响。

针对上述问题,本文提出了通过主辅网络方式将不同类别特征进行融合的方法。首先将段特征输入BLSTM-Attention网络作为主网络,提取深度段特征;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,提取深度Mel语谱图特征;最后,用深度Mel语谱图特征辅助深度段特征,将两者以主辅网络方式进行特征融合。在IEMOCAP数据集上的实验结果表明,使用主辅网络深度特征融合的WA和UA分别达到74.45%、72.50%,比将特征直接拼接的WA和UA分别提高了1.24%、1.15%.

1 不同类别的特征提取

1.1 段特征提取

1) 语音信号采样率为16 kHz,分帧处理时取窗长256,窗移128;

2) 使用截断或补零的方式使所有语音长度为1 000帧;

3) 计算每一帧信号的平均过零率、能量、基音频率、共振峰、MFCC,共18维声学特征[12]

4) 每5帧组成一段[13],共200段。计算一段内声学特征的最大值、最小值、平均值、中值和方差等统计特征,得到一段信号的18×5=90维特征;

5) 标准化处理,得到每一句情感语音信号的90×200的段特征,段内的声学特征如表1所示。

表1 段内的声学特征及其统计类型
Table 1 Acoustic feature and statistical feature within a segment

声学特征统计类型平均过零率(1维)最大值,最小值,平均值,中值,方差,共5维能量(1维)最大值,最小值,平均值,中值,方差,共5维基音频率(1维)最大值,最小值,平均值,中值,方差,共5维共振峰(3维)前3个共振峰的最大值,最小值,平均值,中值,方差,共15维MFCC(12维)前12阶最大值,最小值,平均值,中值,方差,共60维

1.2 Mel语谱图生成

首先对语音信号进行STFT变换,使用汉明窗,窗长256,窗移128.

大量实验表明人耳听到的声音高低和实际频率(Hz)不呈线性关系,Mel频率更加符合人耳的听觉特性,Mel频率fMel和Hz频率f的关系如式(1)所示。

(1)

然后通过40阶Mel滤波器组得到Hm(k),再将Hm(k)×|X(k)|2求和得到Mel语谱图。

Mel滤波器组的输出计算如式(2)所示,每个滤波器具有三角滤波特性,

Hm(k)=

(2)

式中:f(m)为中心频率,m表示Mel滤波器的阶数;k表示FFT中点的编号。

Mel语谱图计算如式(3)所示,

(3)

其中,|X(k)|2表示频谱能量。

最后使用截断补零的方式使所有Mel语谱图大小对齐,得到大小为40×432的Mel语谱图。

1.3 基于BLSTM-Attention的深度段特征提取

LSTM适合对序列问题进行建模,因此被广泛应用在语音识别和语音情感识别中。BLSTM由正向LSTM和反向LSTM组成。BLSTM不仅可以考虑输入数据以前的信息,还可以考虑输入数据未来的信息,可以更好地对序列问题进行建模。采用BLSTM对段特征进行建模可以提取考虑上下文情感信息的深度情感特征。本文使用两层BLSTM,隐藏神经元个数为300,为了减轻过拟合使用dropout,弃权率为0.5.

通过对BLSTM输出应用注意力机制可以关注输入的情感语音信号中更显著的情感片段,增强BLSTM网络提取显著深度段特征的能力。更具体地说,以LSTM为核心的识别器在时间上展开的长度是T,则LSTM在每一时刻都对应一个输出。相比于平均池化输出和最后时刻输出,注意力机制可以兼顾LSTM层每一时刻的输出,其对LSTM网络每一时刻的输出分配不同的权重来考虑上下文情感信息的深层特征。注意力机制的具体计算如式(4)所示:

(4)

式中:stRD是输入序列的某一元素;T表示LSTM的某一时刻;αt为加权系数。加权系数可以通过式(5)、(6)算出,并通过网络训练进行更新。

αt=softmax(βt) .

(5)

(6)

式中:σ为非线性映射函数,如Sigmoid函数。为系数矩阵与系数向量,它们都是网络学习参数。

1.4 基于CNN-GAP的深度Mel语谱图特征提取

由于CNN适合于二维图像数据,而Mel语谱图是一维语音信号在二维时频域的展开,因此CNN可以用来在Mel语谱图上提取深度特征。CNN由卷积层和池化层组成,卷积层用来提取特征,池化层用来降低网络规模和过拟合,通常采用最大值池化或均值池化。

Mel语谱图是一维语音信号在二维时频域的展开,能够充分反映语音信号在时频域大部分信息。针对Mel语谱图的这一特点,可以分别在时间轴和频率轴设计较大的卷积核,提取Mel语谱图的频率和时间特性,进而提取显著的情感特征。设计的卷积神经网络结构如图1所示。

卷积核大小表示为长×宽×输入通道×输出通道,
池化层大小表示为长×宽
图1 设计的卷积神经网络结构
Fig.1 Design of the convolutional neural network structure

第一层卷积层在时间轴上设计较大的卷积核,提取Mel语谱图的时间特性;第二层卷积层在频率轴上设计较大的卷积核,提取Mel语谱图的频率特性;第三层卷积层使用3×3卷积核;第四层卷积层在频率轴上使用全卷积,最后再使用全局平均池化(global average pooling,GAP).用GAP代替全连接层可以减轻过拟合,使网络易于训练。每一层卷积层都使用了批归一化(batch normalization,BN)以及Relu激活函数。具体网络参数经过调参得到。

2 主辅网络特征融合模型

2.1 主辅网络特征融合的网络结构

将段特征输入BLSTM-Attention网络提取了深度段特征,将Mel语谱图输入CNN-GAP网络提取深度Mel语谱图特征,通常将两者以直接拼接的方式进行特征融合,但是没有考虑不同特征的量纲和维度的差异,会对识别结果带来不利影响。因此,本文提出基于主辅网络特征融合的语音情感识别。

主辅网络特征融合的网络结构如图2所示。传统声学特征以时域特征为主,具有明确的物理意义,因此将其作为主网络输入特征。主网络是基于BLSTM-Attention的深度段特征提取模块,辅助网络是基于CNN-GAP的深度Mel语谱图特征提取模块,两者以主辅网络方式组成特征融合网络。主网络分为上、下两部分,MU代表上半部分,由全连接层构成;MD代表下半部分,由BLSTM-Attention网络构成。e0表示语音段特征,经标准化后作为主网络的输入;hl代表主网络MD部分的输出,是深度段特征,维度是600.辅助网络由CNN-GAP网络构成,v0表示Mel语谱图,作为辅助网络输入,vM表示辅助网络GPA的输出,辅助网络FC层的Wc是控制参数(为了简化描述,省略了辅助网络FC层偏置项),也是权重,维度是128×200.一方面在主网络参数更新时可以控制辅助网络参数不更新;另一方面是对vM进行特征变换。Concate表示hlWcvM直接拼接,并输入主网络的MU上半部分,其中hl表示BLSTM-Attention网络提取的深度段特征,vM表示CNN-GAP网络提取的深度Mel语谱图特征,Wc表示控制主辅网络训练的参数。然后将Concate拼接结果通过FC层做进一步特征融合,最后使用Softmax进行分类。

图2 主辅网络特征融合的结构模型
Fig.2 A structural model of feature fusion of
main-auxiliary networks

2.2 主辅网络特征融合参数传递及更新

本文提出的基于主辅网络特征融合的语音情感识别模型,最重要的是网络训练过程,也就是误差反传参数更新的过程,主辅网络特征融合参数传递示意图如图3所示。

图3 主辅网络特征融合参数传递及更新
Fig.3 Transfer and update of main-auxiliary network
feature fusion parameters

由于辅助网络的加入,网络的训练被分为三步:

1) 参数初始化。将语音段特征e0输入主网络,将Mel语谱图v0输入辅助网络;然后将控制参数Wc初始化为0,主网络和辅助网络的权重和偏置通过截断正太分布随机初始化。

2) 主网络训练。首先通过控制Wc和网络设置使辅助网络不起作用,然后使用梯度下降算法和反向传播算法训练主网络使主网络MDMU参数更新。

3) 辅助网络训练。首先将主网络MDMU的权重和偏置设置为不更新,将辅助网络的权重、偏置和Wc设置为更新;使用梯度下降算法和反向传播算法训练辅助网络使辅助网络参数和Wc更新。

下面介绍辅助网络的一些参数更新。主辅网络最后一层输出拼接向量为hl,具体的拼接公式如式(7)所示:

hl=hl+WcvM.

(7)

L为代价函数,根据标准的反向传播算法求得后,可根据链式法则由式(8)、(9)求得:

(8)

(9)

根据标准的反向传播算法,辅助网络各层的参数关于代价函数L的偏导数可以依据逐层推导得到。

3 实验及结果

3.1 实验数据库及网络参数设置

本文使用美国南加州大学发布的英文情感数据集IEMOCAP(the interactive emotional dyadic motion capture database).该数据集由5个会话组成,每个会话由一对说话者(女性和男性)在预先设定的场景和即兴场景中对话。本文使用即兴场景对话中的语句,选取4种情感,分别是高兴、悲伤、愤怒、中性,共2 046条语句。

本文使用tensorflow深度学习框架,以本文提出的网络模型为例,通过多次实验确定网络参数如下:主网络学习率为0.000 5,辅助网络学习率为0.001;主网络minibatch大小为96,辅助网络minibatch大小为48;主辅网络均使用Adam优化器。

3.2 实验结果及分析

本文采用情感识别领域常见的两种评价指标:加权准确率WA和非加权准确率UA.WA衡量了语音情感识别系统的总体性能,其计算方式为正确分类的样本数量除以样本总数;UA衡量所有类别的识别性能,其计算方式为各类的分类准确率再除以类别数。本文采用分层五折交叉方式验证模型预测效果,使用样本的80%进行训练,20%进行测试,最后对5次预测结果取平均。为了评价本文所提算法的有效性,对5种识别模型在IEMOCAP数据集上进行了对比实验,结果如表2所示。

下面对5种识别模型的输入特征进行说明。

BLSTM:将段特征输入BLSTM网络进行特征提取,然后输入Softmax分类器进行语音情感识别。

BLSTM-Attention:将段特征输入BLSTM-Attention网络进行特征提取,然后输入Softmax分类器进行语音情感识别。

CNN-GAP:将Mel语谱图输入CNN-GAP网络进行特征提取,然后输入Softmax分类器进行语音情感识别。

Concate Network:将段特征输入基于BLSTM-Attention网络,将Mel语谱图输入CNN-GAP网络,再将两者以直接拼接的方式进行特征融合,最后输入Softmax分类器进行语音情感识别。

Our Methods:本文提出的主辅网络特征融合识别模型,先将段特征输入基于BLSTM-Attention网络,将Mel语谱图输入CNN-GAP网络,再将两者以主辅网络特征融合的方式进行特征融合,最后输入Softmax分类器进行语音情感识别。

由表2可知,Our Methods的WA和UA比BLSTM-Attention分别提高3.20%,3.08%;比CNN-GAP分别提高3.68%,4.02%;比Concate Network分别提高1.24%,1.15%.表明使用两种特征融合比单独使用一种特征更有效,且主辅网络特征融合方式的识别结果比直接拼接方式特征融合的识别结果更有效。

表2 5种识别模型在IEMOCAP数据集上的识别结果
Table 2 Recognition results of the five recognition
models on IEMOCAP dataset %

识别模型WAUABLSTM69.4467.38BLSTM-Attention71.2569.42CNN-GAP70.7768.48Concate Network73.2171.35Our Methods74.4572.50

Our Methods的混淆矩阵如表3所示,中性、高兴、悲伤、生气情感的识别准确率分别为60.02%,78.15%,88.37%,63.51%,4种情感识别准确率均高于60%,进一步证明了Our Methods的有效性。

表3 Our Methods的混淆矩阵
Table 3 Confusion matrix of Our Methods %

准确率中性高兴悲伤生气中性60.0216.5418.834.60高兴12.6178.152.526.72悲伤5.435.4388.370.78生气12.1616.228.1163.51

表4中列出了Our Methods和其他模型在 IEMOCAP数据集上研究的识别结果,识别模型均采用即兴场景对话中的语句,选取了4种情感。从表4可以看出,Our Methods和其他模型相比取得了不错的效果,比Attention-BLSTM-FCN模型[15]的WA和UA分别提高了6.35%和5.50%.

表4 Our methods和其他模型在IEMOCAP
数据集上的识别结果
Table 4 Recognition results of Our Methods and other
models on IEMOCAP datasets %

识别模型WAUAFCN-Attention[8]70.4063.90Attention-BLSTM-FCN[10]68.1067.00CNN_GRU_SeqCap[11]72.7359.71Our Methods74.4572.50

4 结束语

情感的表达本身是一个很复杂的过程,涉及到心理以及生理方面的诸多因素,因此从语音信号中识别出情感信息是一个挑战性的课题。本文将段特征输入BLSTM-Attention网络作为主网络,把Mel语谱图输入CNN-GAP网络作为辅助网络,然后将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题,并用实验验证了所提出模型的有效性。在今后的研究过程中,拟改进CNN-GAP网络的最后一层的池化方式并将脑电信号作为辅助信号引入主辅网络结构进行语音情感识别。

参考文献:

[1] 张雪英,孙颖,张卫,等.语音情感识别的关键技术[J].太原理工大学学报,2015,46(6):630-636.

ZHANG X Y,SUN Y,ZHANG W,et al.Key technologies in speech emotion recognition[J].Journal of Taiyuan University of Technology,2015,46(6):630-636.

[2] MIRSAMADI S,BARSOUM E,ZHANG C.Automatic speech emotion recognition using recurrent neural networks with local attention[C]∥IEEE.IEEE International Conference on Acoustics Speech and Signal Processing.Louisiana:New Orleans,2017:2227-2231.

[3] KIM J W,SAUROUS R A.Emotion recognition from human speech using temporal information and deep learning[C]∥19th Annual Conference of the International Speech Communication Association.Sindh:Hyderabad,2018:937-940.

[4] HUANG C W,NARAYANAN S S.Deep convolutional recurrent neural network with attention mechanism for robust speech emotion recognition[C]∥IEEE.IEEE International Conference on Multimedia and Expo.China:Hong Kong,2017:583-588.

[5] 陈晓敏.基于时序深度学习模型的语音情感识别方法研究[D].哈尔滨:哈尔滨工业大学,2018.

[6] MAO Q R,DONG M,HUANG Z W,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):2203-2213.

[7] 李鹏程.基于深度学习的语音情感识别研究[D].合肥:中国科学技术大学,2019.

[8] ZHANG Y Y,DU J,WANG Z R,et al.Attention based fully convolutional network for speech emotion recognition[C]∥2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.USA:Honolulu,2018.

[9] LUO D Q,ZOU Y X,HUANG D Y.Investigation on joint representation learning for robust feature extraction in speech emotion recognition[C]∥19th Annual Conference of the International Speech Communication Association.Sindh:Hyderabad,2018:152-156.

[10] ZHAO Z P,BAO Z T,ZHAO Y Q,et al.Exploring deep spectrum representations via attention-based recurrent and convolutional neural networks for speech emotion recognition[J].IEEE ACCESS,2019,7:97515-97525.

[11] WU X X,LIU S X,CAO Y W,et al.Speech emotion recognition using capsule networks[C]∥IEEE.IEEE international conference on acoustics,speech and signal processing.Britain:Brighton,2019:56-76.

[12] 张卫.基于模糊认知图的语音情感识别关键问题研究[D].太原:太原理工大学,2017.

[13] EYBEN F,SCHERER K R,SCHULLER B W,et al.The geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing[J].IEEE Transactions on Affective Computing,2017,7(2):190-202.

Feature Fusion Based on Main-Auxiliary Network for Speech Emotion Recognition

HU Desheng, ZHANG Xueying, ZHANG Jing, LI Baoyun

(CollegeofInformationandComputer,TaiyuanUniversityofTechnology,Taiyuan030024,China)

Abstract:Speech emotion recognition is an important research direction of human-computer interaction. Effective feature extraction and fusion are among the key factors to improve the rate of speech emotion recognition. In this paper, a speech emotion recognition algorithm using Main-auxiliary networks for deep feature fusion was proposed. First, segment features are input into BLSTM-attention network as the main network. The attention mechanism can pay attention to the emotion information in speech signals. Then, the Mel spectrum features are input into Convolutional Neural Networks-Global Average Pooling (GAP) as auxiliary network. GAP can reduce the overfitting brought by the fully connected layer. Finally, the two are combined in the form of Main-auxiliary networks to solve the problem of unsatisfactory recognition results caused by direct fusion of different types of features. The experimental results of comparing four models on IEMOCAP dataset show that WA and UA using the depth feature fusion of the Main-Auxiliary network are improved to different degrees.

Keywords:speech emotion recognition; main-auxiliary network; long-short term memory; convolutional neural network

文章编号:1007-9432(2021)05-0769-06

收稿日期:2020-12-29

基金项目:国家自然科学基金资助项目(61371193);山西省回国留学人员科研资助项目(HGKY2019025);山西省研究生教育创新计划项目(2020BY130)

第一作者:胡德生(1996-),硕士研究生,(E-mail)718416067@qq.com

通信作者:张雪英(1964-),教授,博士生导师,主要从事语音信号处理、大数据分析及应用等的研究,(E-mail)tyzhangxy@163.com

引文格式:胡德生,张雪英,张静,等.基于主辅网络特征融合的语音情感识别[J].太原理工大学学报,2021,52(5):769-774.

中图分类号:TP181TP399

文献标识码:A

DOI:10.16355/j.cnki.issn1007-9432tyut.2021.05.011

开放科学(资源服务)标识码(OSID):

(编辑:朱 倩)

Baidu
map