一种用于语音测谎的栈式去噪自编码器及深度神经网络结构

    公开(公告)号:CN110246509B

    公开(公告)日:2021-07-13

    申请号:CN201910518672.4

    申请日:2019-06-15

    Abstract: 现有的语音谎言检测算法常采用的特征是组合特征,特征冗余较大,针对这一问题,本发明公布了一种面向语音谎言检测的栈式去噪自编码及深度神经网络(SDAE‑DNN)结构。它包含有两层的编码和解码网络以及后接DNN网络。该结构首先使用两层去噪自编码结构降低特征的冗余,其中为了防止过拟合,在栈式去噪自编码器的每一个网络层都增加了dropout,然后采用一层DNN网络进一步学习特征,最后使用softmax分类器对网络进行微调,得到了更加具有表征性的特征,从而提升网络对于谎言的识别效果。

    一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法

    公开(公告)号:CN110534132A

    公开(公告)日:2019-12-03

    申请号:CN201910901182.2

    申请日:2019-09-23

    Abstract: 本发明公布了一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法。包括以下步骤:首先,从每条语音中提取帧级特征,并利用长短期记忆网络逐帧进行高级特征提取。同时,计算帧级特征的一阶差分以及二阶差分,并将其组合成三维特征,通过卷积神经网络来对这些三维特征进行高级特征提取。然后将两个高级特征融合并进行批归一化处理。最后,使用SoftMax分类器对情感进行分类。本发明的基于谱图特征的并行卷积循环神经网的语音情感识别方法,模块内部采用并行的连接结构来同时处理谱图特征,能够有效的提升语音情感识别的性能。

    一种基于多头注意力机制融合的卷积递归神经网络模型

    公开(公告)号:CN113724732A

    公开(公告)日:2021-11-30

    申请号:CN202110467449.9

    申请日:2021-04-28

    Abstract: 本发明公开了一种基于多头注意力机制融合的卷积递归神经网络模型。首先,提出了一种全卷积网络用于提取语音谱图情感特征,该网络以Alexnet网络为基础模型,通过在Alexnet网络池化层后添加分支的方法阻止情感信息损失;采用2层BiLSTM网络提取语音帧级情感特征,并将BiLSTM网络与全卷积网络并行连接,组成混合网络,用于提取语音情感特征;其次,提出了一种基于多头注意力机制的特征融合算法,该方法利用多头注意力机制实现Alexnet网络与BiLSTM网络特征自适应融合,同时,为抑制网络梯度发散,将混合网络提取的特征与多头注意力融合特征通过shortcut connection连接,构成用于情感识别的特征;最后,将特征送入softmax分类器中,实现情感分类。

    一种基于卷积神经网络和简单循环单元的语音情感识别方法

    公开(公告)号:CN110491415A

    公开(公告)日:2019-11-22

    申请号:CN201910901171.4

    申请日:2019-09-23

    Abstract: 本发明公布了一种基于卷积神经网络和简单循环单元的语音情感识别方法。首先,提取出语音中的谱图特征及其一阶差分和二阶差分,组合成三维特征。将这些特征在时间轴上分割成固定的片段数,并使用在ImageNet数据集上初始化参数的Alexnet网络取出每个分段特征的高级特征。因为这些分段的高级特征在时间上具有相关性,我们将这些特征通过一个简单循环单元来进行聚合。最后,使用SoftMax分类器对情感进行分类。本发明的基于卷积神经网络和简单循环单元的语音情感识别方法,方法新颖,能够有效的提升语音情感识别的性能。

    一种用于语音测谎的半监督加性噪声自编码器

    公开(公告)号:CN110009025B

    公开(公告)日:2023-03-24

    申请号:CN201910239533.8

    申请日:2019-03-27

    Abstract: 现有的语音谎言检测算法受制于难以获得足量的带标签语音数据,而现实中大量易得的无标签数据却被忽视,针对这一问题,本发明提出了一种用于语音测谎的半监督加性噪声自编码器,它包含有两层的编码和解码网络,以及一个分类器。该模型首先根据语音谎言的特征改变了网络中的激活函数,其次为了防止过拟合,在每一个网络层都增加了dropout,最后在编码输出部分直接连接了分类器使网络简洁高效。数据输入模型后,先经过编码网络提取特征,之后不仅进入解码网络进行重构,还要进入分类器进行分类。无标签数据保证了模型的泛化性,有标签数据可以保证提取到的特征更适合分类,因此,我们的模型充分利用了有标签和无标签数据的价值。

    一种具有多输入多融合策略的双BiLSTM的语音情感识别方法

    公开(公告)号:CN110853680B

    公开(公告)日:2021-12-24

    申请号:CN201911072974.X

    申请日:2019-11-05

    Abstract: 本发明公布了一种面向语音情感分类的具有多输入多融合策略的双BiLSTM结构。首先,提取语音信号中的Mel谱特征和统计特征两种帧级特征,然后将两种特征同时输入两个双向LSTM网络进行学习,分别应用注意力机制和平均池化操作将两个双向LSTM的输出进行拼接得到基于各帧的注意加权和及平均的两种高级特征,最后,将这两种特征进行融合及批归一化处理后,使用softmax分类器进行语音情感识别。我们的DABL模型同时处理两种不同类型的特征,以便更好地了解情绪中的细微变化。在“EMO‑DB”数据集上的实验结果表明了本文方法的优越性。

    一种用于语音测谎的栈式去噪自编码器及深度神经网络结构

    公开(公告)号:CN110246509A

    公开(公告)日:2019-09-17

    申请号:CN201910518672.4

    申请日:2019-06-15

    Abstract: 现有的语音谎言检测算法常采用的特征是组合特征,特征冗余较大,针对这一问题,本发明公布了一种面向语音谎言检测的栈式去噪自编码及深度神经网络(SDAE-DNN)结构。它包含有两层的编码和解码网络以及后接DNN网络。该结构首先使用两层去噪自编码结构降低特征的冗余,其中为了防止过拟合,在栈式去噪自编码器的每一个网络层都增加了dropout,然后采用一层DNN网络进一步学习特征,最后使用softmax分类器对网络进行微调,得到了更加具有表征性的特征,从而提升网络对于谎言的识别效果。

    一种用于语音测谎的半监督加性噪声自编码器

    公开(公告)号:CN110009025A

    公开(公告)日:2019-07-12

    申请号:CN201910239533.8

    申请日:2019-03-27

    Abstract: 现有的语音谎言检测算法受制于难以获得足量的带标签语音数据,而现实中大量易得的无标签数据却被忽视,针对这一问题,本发明提出了一种用于语音测谎的半监督加性噪声自编码器,它包含有两层的编码和解码网络,以及一个分类器。该模型首先根据语音谎言的特征改变了网络中的激活函数,其次为了防止过拟合,在每一个网络层都增加了dropout,最后在编码输出部分直接连接了分类器使网络简洁高效。数据输入模型后,先经过编码网络提取特征,之后不仅进入解码网络进行重构,还要进入分类器进行分类。无标签数据保证了模型的泛化性,有标签数据可以保证提取到的特征更适合分类,因此,我们的模型充分利用了有标签和无标签数据的价值。

Patent Agency Ranking