语音情感识别是一门致力于让计算机明白人类语音所包含的情感信息,达到像人一样进行生动、自然交流的技术,在智能家居、智慧医疗等多个领域得到广泛应用。其模型一般包括三个模块,语音情感数据库、特征提取以及识别算法[1]。其中,特征提取是模型的关键部分之一,且随着特征种类的增多,有效的特征融合也成为提升识别性能的重要方式。
目前常用的声学特征包括韵律学特征(能量、语速、过零率),音质特征(共振峰)与梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)三类[2],但是这些特征都属于浅层特征,并不能表征语音信号的深层次特性。深度学习的出现为解决这个问题提供了新的思路[3-4]。深度神经网络(deep neural networks,DNN)是常用的提取深度特征的方式,通过有监督的网络训练,可以使隐藏层学习到更多情感信息,之后提取隐藏层作为声学深度特征进行后续的识别工作,可有效提升模型的性能。文献[5]利用DNN 对直接提取的声学特征进行二次特征优化,增强了传统声学特征的情感信息。这说明了利用深度学习优化声学特征的可行性。
本文为提取更能表征自身且情感信息增多的声学深度特征,在DNN 的基础上,结合多任务学习[6-7]的思想,提出一种基于多任务学习的深度特征提取模型。在DNN 的基础框架之上,构建分类任务与自学习任务,同时训练网络,提取深度特征。其中,分类任务中网络的标签为情感类别;自学习任务中设置网络的标签为输入特征本身,在网络的输出层进行特征的重构。该模型的整体流程为通过共享的输入层和隐藏层,同时训练分类任务与自学习任务,通过反向传播使得隐藏层具备更多原始特征以及情感信息,训练结束后,提取隐藏层作为声学深度特征输出。
同时,语谱图作为语音信号的二维表征,包含语音的时频域信息,语谱图特征的提取也是目前的研究热点之一[8-9]。本文利用卷积神经网络(convolutional neural network,CNN)对语谱图进行学习训练,最后提取全局平均池化层作为语谱图特征输出。声学特征与语谱图特征作为语音信号不同维度的表征,两者进行融合可有效提升模型的性能[10-12]。文献[13]首先将语谱图通过卷积循环神经网络提取语谱图特征,然后将其与声学特征拼接后输入softmax分类器进行识别,结果显示拼接特征的识别率要优于单一特征,说明了上述特征融合的有效性。但是直接拼接的特征实质上并没有对特征进行空间上的融合,且会存在特征维数过大的问题。多核学习[14]利用核函数将特征映射到高维空间,可以使声学特征与语谱图特征在核空间进行映射融合,获取两个不同特征的优势,从而提升融合特征的性能;核主成分分析[15]可以缩减特征维数,从而解决特征融合带来的维数过多的问题。因此,本文结合上述两个算法,构建多核主成分分析(multiple kernel principal component analysis,MKPCA)的方法进行特征融合。该方法首先将声学特征与语谱图特征结合多核学习的思想构建多核映射空间,使其具有不同核函数的映射特性从而获得更强的特征映射能力,之后进行PCA 降维得到融合特征。
综上所述,本文提出的基于多任务深度特征提取及多核主成分分析语音情感识别系统如图1 所示。深度特征提取与特征融合是整个系统的关键。首先,提取语音信号的声学特征与语谱图作为原始输入;之后,采用多任务深度神经网络提取声学深度特征,利用卷积神经网络提取语谱图特征,作为融合的前端特征;接着使用MKPCA 算法得到融合特征,最后输入DNN 分类器进行情感识别。最终在EMODB、CASIA 语音库上进行验证,结果表明经过深度特征提取与MKPCA 特征融合,语音情感识别系统的性能得到了改善,展现了更强的分类能力。下面详细叙述各部分原理和算法。
图1 语音情感识别系统
Fig.1 Speech emotion recognition block diagram
本文使用OpenSMLIE工具箱提取语音信号的声学特征——INTERSPEECH 2009情感挑战赛特征集(IS09特征集),该特征集共包括32类特征,每类特征提取12个统计量得到共计384维特征,具体特征见表1.
表1 IS09特征集
Table 1 IS09 feature set
IS09特征集由传统声学特征组成,只能表征语音信号的浅层特征,不能在更深层次上描述语音信号,故本文采取基于多任务学习的深度神经网络对该特征集进行二次特征提取,得到更为高级的声学深度特征。
多任务学习与一般的单任务学习(如DNN 为单任务学习网络)不同,其简要结构如图2所示。多任务学习的结构一般由共享模块与任务模块组成,共享模块包含共享的网络参数,任务模块包含该网络需完成的不同任务。多任务学习通过共享网络层参数并行训练多个任务,最终使得单个网络可以实现多个功能。
图2 多任务学习框架
Fig.2 Multi-task learning framework
本文在DNN 网络的基础上,结合多任务学习,构建多任务DNN 网络进行深度特征提取。其中,多任务为分类任务与自学习任务。分类任务的本质为设置网络的标签为情感类别,通过softmax进行分类识别;自学习任务本质为重构特征,设置网络的标签为输入特征本身,通过线性映射将隐藏层重构为与输入特征维数相同的输出层,计算输出与标签之间的均方误差,实现对输入特征的重构工作。
本文所提多任务深度特征提取框架如图3 所示。多任务深度神经网络包含一个输入层、三个隐藏层与两个输出层。其中,输出层实现两个不同的任务,具有两个不同的损失,网络通过建立联合损失进行反向传播,同时训练分类任务与自学习任务,最终使得隐藏层即所提声学特征可更好表征特征自身以及情感信息增多。
图3 多任务深度特征提取框图
Fig.3 Block diagram of multi-task deep feature extraction
其整体流程如下:
1)Iuput输入为IS09 特征集,记为x={x1,x2,…,xn},其中,xn为特征值,n为特征维数。
2)x前向传播经过共享的隐藏层(Hidden1、Hidden2与Hidden3)进行映射学习。
3) 在Hidden3之后进行输出,分为两个输出任务:分类任务与自学习任务。
a) 分类任务将输入的Hidden3 的数据,通过softmax函数计算情感类别概率得到预测标签,然后通过交叉熵损失函数计算真实情感标签与预测标签之前的损失loss1,反向传播微调隐藏层参数,使得隐藏层具有更多情感标签信息。其中,损失函数loss1如式(1)所示,
其中,yi为情感真实标签值为情感预测标签值,m为情感类别数。
b) 自学习任务通过线性映射将输入的Hidden3的数据扩展至维数为n对x进行重构得到x′,同时通过均方误差计算x与x′之间损失loss2,反向传播更新网络参数,使Hidden3包含更多输入特征的信息。损失函数loss2如式(2)所示,
4) 多任务学习的本质在于一个网络实现两个任务,通过建立多任务损失loss同时对分类任务与自学习任务进行反向传播微调神经元节点值,多任务损失loss定义如式(3)所示,
其中,α、β为对应的权重。
训练结束后,提取Hidden3作为声学深度特征输出。经过多任务深度神经网络提取的声学深度特征具有两个特点:更多的情感信息和更好的表征原始特征。
声学特征与语谱图特征是常用的语音特征,声学特征是语音的一维表征,而语谱图特征是语音的二维表征,两个特征是对语音信号的不同表达,对情感的表述能力不同,具有互补的特性,两者融合可以有效提升模型的识别性能。本文提出一种多核主成分分析(MKPCA)的方法对二者进行特征融合。
语谱图是语音信号经过傅里叶变换后的二维表示,可有效表征语音信号的时频域特性,Mel语谱图在传统语谱图的基础上加入Mel滤波器,使得该语谱图能更好地表征人类对情感的认知。语谱图特征的提取是将Mel语谱图通过CNN 的学习实现的,CNN 网络结构如表2所示。
表2 CNN 网络结构
Table 2 CNN network structure
多核学习可联合多个核函数构建多核空间,通过映射融合多种特征。KPCA 利用核函数将原始数据映射到高维空间,然后在高维空间中进行主成分分析可对数据进行降维处理。本文结合两者构建多核主成分分析(MKPCA)融合声学深度特征与语谱图特征。其主要流程如图4所示。
图4 MKPCA 算法框图
Fig.4 MKPCA algorithm block diagram
MKPCA 算法流程如下:
1) 输入声学深度特征与语谱图特征的拼接特征——IS09MT-MSP特征,进行数据预处理。
2) 构造多核映射空间。在核函数的选取上,不同的核函数具有不同的特性,但是线性核本质上并没有对特征空间进行映射,Sigmoid核函数只在某些特殊核参数值的条件下才满足Mercer条件,因此本文选取关注全局特性的多项式核与关注局部特性的径向基核构成多核。
将输入的特征集进行多项式核与径向基核映射,得到多项式核矩阵Kpoly与径向基核矩阵Krbf.其中,多项式核计算公式如式(4)所示:
式(4)中共包含三个参数:a、c、d,zi、zj属于输入特征空间z.
径向基核计算公式为如式(5)所示:
式(5)包含一个参数:σ.
多核映射空间Kmkpca计算如式(6)所示:
其中,Kmkpca为多核矩阵,λ1、λ2分别为Kpoly与Krbf的权重,且λ1+λ2=1.
3) 最后在映射后的空间进行主成分分析。对所求多核矩阵求解协方差矩阵,解得特征值与特征向量,按照设定维数进行映射得到融合降维后的特征。
本文共在两个不同语种的公开数据集上进行实验验证,具体信息如下。
EMODB情感语音数据库,是由柏林工业大学录制的德语情感语音库,共535个样本,包含7种情感(生气、害怕、厌恶、高兴、中性、悲伤、无聊)。
CASIA 情感语音数据库,是由中科院录制的汉语情感语音库,共1 200个样本,包含6种情感(生气、害怕、高兴、中性、伤心、惊讶)。
实验环境为python3.7、tensorflow1.14,采用五折交叉验证的方式划分训练集与测试集,比例为4∶1,评价指标为准确率。
1) 多任务深度神经网络参数:学习率为0.001,batch-size为32,epoch为50,共享的第1、2隐藏层神经元数目为:[512,512];为提取分类性能最优的深度特征,特征提取层(即第3个隐藏层)共设置5个不同的神经元数目进行对比研究:[50,100,150,200,250];经过实验选取多任务权重为α=0.8、β=0.2.
2) 语谱图特征提取网络参数:学习率为0.0003,batch-size为32,训练epoch为50.
3)MKPCA 参数:poly 核的参数a、c均在[2-8,28]均匀取40个值,d为[1,2,3];rbf核的参数σ在[2-8,28]均匀取40个值,经过网格寻优的方式得到最优参数组合;经过实验选取两个核函数的权重为λ1=0.4、λ2=0.5.
4)DNN 分类网络参数:学习率为0.001,batch-size为64,epoch 为50,隐藏层参数为[512,512,300].
实验中出现的特征名称如表3.
表3 特征名称说明
Table 3 Feature name description
3.3.1 声学深度特征实验结果
为获得识别效果最优的声学深度特征,实验共设置5个不同的神经元数目提取对应维数的深度特征进行对比,同时与经过深度神经网络提取的深度特征进行对比用以验证多任务学习的有效性。两个语音库采用DNN 分类器时的识别率如图5所示,原始IS09特征的识别率分别为82.80%、75.91%.
图5 声学特征识别结果
Fig.5 Acoustic feature recognition results
由图5可以看出,IS09MT 特征在两个语音库上的识别率均比原始IS09特征识别率高,最高提升4.12%、5.26%,这说明了声学深度特征可有效优化声学特征,提升其情感分类能力。同时,IS09MT 特征比IS09DNN 特征识别率高,这体现了多任务学习的有效性。由于多任务DNN 网络增加了自学习任务,使得网络计算复杂度有所增加,但我们用小的代价换来了识别率的提升。其中,IS09MT 特征在EMODB语音库上特征维数为150维时取得最高识别率为86.92%,相比IS09DNN 特征提升1.62%.在CASIA 语音库上为200 维时最高识别率为81.17%,相比IS09DNN 特征提升1.09%,故本文选取上述维数的特征作为所提声学深度特征。
3.3.2 声学深度特征与语谱图特征MKPCA 特征融合实验结果
实验共提取4个不同维数的融合特征来验证MKPCA 算法的有效性,在两个语音库的识别率如表4 所示,MSP 特征识别率分别为80.18%、80.17%,直接拼接的IS09MT-MSP 特征的识别率分别为90.28%、85.42%.
表4 IS09MT-MSP-MKPCA 特征识别率
Table 4 Recognition rate of IS09MT-MSP-MKPCA feature%
由表4可以看出,经过MKPCA 算法融合降维得到的IS09MT-MSP-MKPCA 特征在两个语音库上维数为200时取得最大识别率分别为92.71%、88.25%,相比单一特征的识别率提升明显,与直接拼接的IS09MT-MSP 特征相比识别率分别提升2.43%、2.83%,说明所提MKPCA 算法可有效利用两个不同特性特征的优势,提升模型性能。
图6为IS09MT-MSP-MKPCA 特征在两个语音库上的混淆矩阵,可以看出,绝大部分样本都识别了正确的情感,只有少数样本存在混淆,具体分析如下:由图6(a)中可看出,在EMODB 语音库上高兴与生气之间的混淆度最大,这是由于两者都是高效价的情感,所以不易区分;由图6(b)可看出,在CASIA 语音库上,悲伤与恐惧之间的混淆度最大,这是由于两者都是低效价的情感,所以两者易混淆。
图6 混淆矩阵
Fig.6 Confusion matrix
3.3.3 结果对比
表5列出了本文所提语音情感识别算法与其他方法在两个语音库上的识别率对比。其中论文所用特征均为声学特征与语谱图。
表5 与其他方法在两个语音库上的识别率比较
Table 5 Recognition rate comparation on two databases %
由表5可看出,本文所提模型在两个语音库上均取得了最好识别率,这说明本文所提基于多任务学习的深度特征提取模型以及MKPCA 特征融合算法可有效利用语音信号中包含的情感信息,使得最终的分类性能提升。
考虑到特征提取及特征融合在语音情感识别中的重要性,首先提出一种多任务深度神经网络进行声学特征的优化工作,通过同时训练分类任务与自学习任务,使得所提声学深度特征拥有更多的情感信息和更好的表征原始特征;接着基于声学特征与语谱图特征之间的互补性,利用MKPCA 算法对二者进行特征融合;最后,将所提方法在EMODB、CASIA 语音库上进行验证,多核融合特征最高识别率为92.71%、88.25%,相比直接拼接特征,识别率分别提升2.43%、2.83%,表明所提方法有效提升了模型识别性能。
[1]张雪英,孙颖,张卫,等.语音情感识别的关键技术[J].太原理工大学学报,2015,46(6):629-636.ZHANG X Y,SUN Y,ZHANG W,et al.The key technology of speech emotion recognition[J].Journal of Taiyuan University of Technology,2015,46(6):629-636.
[2]张雪英,张婷,孙颖,等.基于PAD模型的级联分类情感语音识别[J].太原理工大学学报,2018,49(5):731-735.ZHANG X Y,ZHANG T,SUN Y,et al.Cascading classification emotion speech recognition based on PAD model[J].Journal of Taiyuan University of Technology,2018,49(5):731-735.
[3]WEI P,ZHAO Y.A novel speech emotion recognition algorithm based on wavelet kernel sparse classifier in stacked deep auto-encoder model[J].Personal and Ubiquitous Computing,2019,23(3-4):521-529.
[4]ZHANG L,WANG L,DANG J,et al.Gender-aware CNN-BLSTM for speech emotion recognition[C]∥International Conference on Artificial Neural Networks.Springer,Cham,2018:782-790.
[5]SUN L,ZOU B,FU S,et al.Speech emotion recognition based on DNN-decision tree SVM model[J].Speech Communication,2019,115(2019):29-37.
[6]YAO Z,WANG Z,LIU W,et al.Speech emotion recognition using fusion of three multi-task learning-based classifiers:HSFDNN,MS-CNN and LLD-RNN[J].Speech Communication,2020,120:11-19.
[7]LI Y,ZHAO T,KAWAHARA T.Improved end-to-end speech emotion recognition using self attention mechanism and multitask learning[C]∥Interspeech 2019,2019:2803-2807.
[8]ZHANG S,ZHANG S,HUANG T,et al.Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching[J].IEEE Transactions on Multimedia,2017,20(6):1576-1590.
[9]LUO D,ZOU Y,HUANG D.Investigation on joint representation learning for robust feature extraction in speech emotion recognition[C]∥Interspeech 2018,2018:152-156.
[10]ER M B.A novel approach for classification of speech emotions based on deep and acoustic features[J].IEEE Access,2020,8:221640-221653.
[11]胡德生,张雪英,张静,等.基于主辅网络特征融合的语音情感识别[J].太原理工大学学报,2021,52(5):769-774.HU D S,ZHANG X Y,ZHANG J,et al.Speech emotion recognition based on main and auxiliary network feature fusion[J].Journal of Taiyuan University of Technology,2021,52(5):769-774.
[12]JIANG P X,HONG L.Parallelized convolutional recurrent neural network with spectral features for speech emotion recognition[J].IEEE Access,2019,7:90368-90377.
[13]PENG W Y,TANG X Y.Speech emotion recognition of merged features based on improved convolutional neural network[C]∥IEEE 2nd International Conference on Information Communication and Signal Processing (ICICSP),2019:301-305.
[14]王忠民,刘戈,宋辉.基于多核学习特征融合的语音情感识别方法[J].计算机工程,2019,45(8):248-254.WANG Z M,LIU G,SONG H.Speech emotion recognition method based on multi-core learning feature fusion[J].Computer Engineering,2019,45(8):248-254.
[15]CHAROENDEE M,SUCHATO A,PUNYABUKKANA P.Speech emotion recognition using derived features from speech segment and kernel principal component analysis[C]//14th International Joint Conference on Computer Science and Software Engineering (JCSSE),Nakhon Si Thammarat,Thailand,2017:1-6.
Speech Emotion Recognition Based on Multi-task Deep Feature Extraction and MKPCA Feature Fusion
LI Baoyun,ZHANG Xueying,LI Juan,et al.Speech emotion recognition based on multi-task deep feature extraction and MKPCA feature fusion[J].Journal of Taiyuan University of Technology,2023,54(5):782-788.