-
公开(公告)号:CN110675860A
公开(公告)日:2020-01-10
申请号:CN201910905808.7
申请日:2019-09-24
Applicant: 山东大学
Abstract: 本公开提供了一种基于改进注意力机制并结合语义的语音信息识别方法及系统,对原始语音数据进行预处理,进行加窗分帧,并对每一帧提取声学特征;构建LSTM模型,通过改进注意力机制优化LSTM模型,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息,得到语音通道信息特征;对于原始语音数据进行自动语音识别,得到对话的文本数据,对于得到的文本数据行进词向量化预处理,对于词向量化后的文本序列,用双层LSTM与全连接层得到高层深度学习特征,得到语义通道信息特征;融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果。
-
公开(公告)号:CN113095357A
公开(公告)日:2021-07-09
申请号:CN202110239787.7
申请日:2021-03-04
Applicant: 山东大学
Abstract: 本发明公开了基于注意力机制与GMN的多模态情感识别方法及系统,对获取的待识别的视频进行预处理,得到文本、语音和面部表情特征;将文本、语音和面部表情特征,并发输入到训练后的多模态情感识别网络的LSTMs模型中,输出第一特征向量;对LSTMs模型所有相邻时间戳的存储器输出值,进行加权求和,得到第一加权后的特征;将第一加权后的特征,输入到训练后的门控记忆网络GMN中,输出第二特征向量;训练后的全局注意力机制网络GTAN,对每个LSTM模型下,所有时间戳的存储器输出值进行加权求和,得到第三特征向量;对第一、第二和第三特征向量进行融合,得到融合特征向量;对融合特征向量进行情感识别,得到情感识别结果。
-