一种基于能量帧时频融合的语音情感识别方法

    公开(公告)号:CN116863963A

    公开(公告)日:2023-10-10

    申请号:CN202310080993.7

    申请日:2023-01-30

    申请人: 东华大学

    摘要: 情感具有主观性与模糊性,而且语音在情感定义上缺乏官方标准。不同听者对同一段语音的情感可能有不同的观点。此外,不同人对同一情感的表达节奏和反应程度是不同的,而且同一个人在不同时刻对同一场景下的情感反应也有可能不同。为了解决该问题,本发明公开的一种基于能量帧时频融合的语音情感识别方法主要由两部分构成:第一部分通过计算语音帧的能量,选出能量大的语音帧转为频谱图作为输入;第二部分语音在时序上和频域上均有情感特征,采取CNN+RNN的网络结构分别对频域和时域进行特征提取,从而能够保证一定的准确率。本发明公开的方法成功体现出了个体间语音节奏的差异,具体是在能量上的分布差异,从而能够更准确地识别出语音情感。