您当前的位置: 首页 > 论文 > 2021,52(05) > 信息与计算机·电气与动力工程
基金项目:
国家自然科学基金资助项目(61371193);山西省回国留学人员科研资助项目(HGKY2019025);山西省研究生教育创新计划项目(2020BY130)
分类号:
TP181
DOI:
10.16355/j.cnki.issn1007-9432tyut.2021.05.011
期刊号:
2021,52(05)
收稿日期:
修回日期:
通讯作者 | 单位 |
张雪英 | 太原理工大学 信息与计算机学院 |
摘要:
为了有效特征提取与融合提高语音情感识别率,提出了一种使用主辅网络进行深度特征融合的语音情感识别算法。首先将段特征输入BLSTM-Attention网络作为主网络,其中注意力机制能够关注语音信号中的情感信息;然后,把Mel语谱图输入CNN-GAP网络作为辅助网络,GAP可以减轻全连接层带来的过拟合;最后,将两个网络提取的深度特征以主辅网络方式进行特征融合,解决不同类型特征直接融合带来的识别结果不理想的问题。在IEMOCAP数据集上对比4种模型的实验结果表明,使用主辅网络深度特征融合的WA和UA均有不同程度的提高。
关键字:
语音情感识别;主辅网络;长短时记忆单元;卷积神经网络