一种加强通道重排和融合的卷积神经网络模块的实现方法

    公开(公告)号:CN112801275A

    公开(公告)日:2021-05-14

    申请号:CN202110171972.7

    申请日:2021-02-08

    IPC分类号: G06N3/04 G06N3/08 G06K9/62

    摘要: 本发明公开了一种加强通道重排和融合的卷积神经网络模块的实现方法,包括以下步骤:通过一个卷积层提取某一层次特征图的特征,产生一个过渡的特征图;通过对产生的过渡特征图在空间维度上进行池化,得到和通道尺寸相同的重排融合向量;利用得到的重排融合向量,计算出重排融合的新通道和对应的权重,对某一通道的特征图按计算的权重累加到新通道及其相邻通道上,遍历所有通道,待所有通道都加权累加后便得到融合后的特征图。本发明的模块,可以无缝插入到任何卷积神经网络当中,加强不同通道信息的交流,可应用于图像分类的网络、目标检测、语义分割等任务的主干网络中。

    一种加强通道重排和融合的卷积神经网络模块的实现方法

    公开(公告)号:CN112801275B

    公开(公告)日:2024-02-13

    申请号:CN202110171972.7

    申请日:2021-02-08

    摘要: 本发明公开了一种加强通道重排和融合的卷积神经网络模块的实现方法,包括以下步骤:通过一个卷积层提取某一层次特征图的特征,产生一个过渡的特征图;通过对产生的过渡特征图在空间维度上进行池化,得到和通道尺寸相同的重排融合向量;利用得到的重排融合向量,计算出重排融合的新通道和对应的权重,对某一通道的特征图按计算的权重累加到新通道及其相邻通道上,遍历所有通道,待所有通道都加权累加后便得到融合后的特征图。本发明的模块,可以无缝插入到任何卷积神经网络当中,加强不同通道信息的交流,可应用于图像分类的网络、目标检测、语义分割等任务的主干网络中。

    多模态情绪压力识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN113057633B

    公开(公告)日:2022-11-01

    申请号:CN202110324847.5

    申请日:2021-03-26

    IPC分类号: A61B5/16 A61B5/00 A61B5/02

    摘要: 本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,该方法包括:获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。本发明选取的多模态数据在表征情绪压力时存在内在关联,并通过深度学习模型充分挖掘多模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。

    多模态情绪压力识别方法、装置、计算机设备及存储介质

    公开(公告)号:CN113057633A

    公开(公告)日:2021-07-02

    申请号:CN202110324847.5

    申请日:2021-03-26

    IPC分类号: A61B5/16 A61B5/00 A61B5/02

    摘要: 本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,该方法包括:获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。本发明选取的多模态数据在表征情绪压力时存在内在关联,并通过深度学习模型充分挖掘多模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。

    一种基于随机深度时延神经网络模型的自动语音识别方法

    公开(公告)号:CN109065033B

    公开(公告)日:2021-03-30

    申请号:CN201811091089.1

    申请日:2018-09-19

    IPC分类号: G10L15/16 G10L15/14

    摘要: 本发明属于自动语音识别技术领域,涉及一种基于随机深度时延神经网络模型的自动语音识别方法,包括:准备训练数据;对训练语音音频数据提取声学特征;训练传统GMM‑HMM模型,用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;利用训练语音音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;利用训练好的语言模型和声学模型,构建自动语音识别的解码器。本发明不仅提高了模型的建模能力,还解决了训练过程中过拟合以及梯度消失的问题,从而提高了语音识别的准确性。

    一种工业设备剩余寿命预测方法、装置、存储介质及设备

    公开(公告)号:CN111460728A

    公开(公告)日:2020-07-28

    申请号:CN202010156709.6

    申请日:2020-03-09

    摘要: 本发明提供了一种工业设备剩余寿命预测方法、装置、存储介质及设备;其中方法包括如下步骤:获取工业设备的传感器监测数据,对传感器监测数据进行数据预处理并获取训练样本;注意力循环神经网络的模型构建与训练:使用lstm网络和输出全连接层构建注意力循环神经网络;在训练过程中,通过注意力层和lstm网络对多维传感器时间序列中各类传感器时间序列赋予不同权重,将带不同权重的多维传感器时间序列输入lstm网络获取高维特征,最后通过输出全连接层获取预测结果;通过注意力循环神经网络预测剩余寿命。本发明能够对不同的传感器时间序列赋予不同的权重,使模型更加关注与工业设备剩余寿命相关度高的传感器输入,从而提高预测准确率。

    一种多人对话系统的情绪识别模型

    公开(公告)号:CN111460143A

    公开(公告)日:2020-07-28

    申请号:CN202010164874.6

    申请日:2020-03-11

    IPC分类号: G06F16/35 G06N3/04 G06N3/08

    摘要: 本发明公开了一种多人对话系统的情绪识别模型,包括S1提取数据集中的特征,所述特征包括文本特征及语音特征;S2根据文本特征及语音特征,构建改进的DialogueRNN网络;S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。本发明在考虑模型对现实多人对话场景的建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过引入Listener的Party State和不同人的Emotion State,提高了DialogueRNN情绪识别模型的性能。

    基于区域卷积神经网络的第一视角手势识别与交互方法

    公开(公告)号:CN107168527A

    公开(公告)日:2017-09-15

    申请号:CN201710273519.0

    申请日:2017-04-25

    IPC分类号: G06F3/01 G06K9/00 G06N3/08

    摘要: 本发明公开了一种基于区域卷积神经网络的第一视角手势识别与交互方法,该方法包括如下步骤:S1、获取训练数据;S2、设计一个基于区域神经网络,在用于手部检测的同时,也用于手势分类与指尖检测,使得神经网络输入为三通道RGB图像,输出为手势区域的外接矩阵左上角坐标和右下角坐标,以及手势类别、手势骨架关键点;S3,判断手势类别,根据不同交互需求输出相应的交互结果。本发明提供了一种完整的第一视角手势识别与交互方法,通过单模型训练与部分网络共享,提高了第一视角下手势识别的识别速度与准确性。