-
公开(公告)号:CN112801275A
公开(公告)日:2021-05-14
申请号:CN202110171972.7
申请日:2021-02-08
申请人: 华南理工大学 , 中山市华南理工大学现代产业技术研究院
摘要: 本发明公开了一种加强通道重排和融合的卷积神经网络模块的实现方法,包括以下步骤:通过一个卷积层提取某一层次特征图的特征,产生一个过渡的特征图;通过对产生的过渡特征图在空间维度上进行池化,得到和通道尺寸相同的重排融合向量;利用得到的重排融合向量,计算出重排融合的新通道和对应的权重,对某一通道的特征图按计算的权重累加到新通道及其相邻通道上,遍历所有通道,待所有通道都加权累加后便得到融合后的特征图。本发明的模块,可以无缝插入到任何卷积神经网络当中,加强不同通道信息的交流,可应用于图像分类的网络、目标检测、语义分割等任务的主干网络中。
-
公开(公告)号:CN112801275B
公开(公告)日:2024-02-13
申请号:CN202110171972.7
申请日:2021-02-08
申请人: 华南理工大学 , 中山市华南理工大学现代产业技术研究院
IPC分类号: G06N3/0464 , G06N3/08 , G06F18/213 , G06F18/25
摘要: 本发明公开了一种加强通道重排和融合的卷积神经网络模块的实现方法,包括以下步骤:通过一个卷积层提取某一层次特征图的特征,产生一个过渡的特征图;通过对产生的过渡特征图在空间维度上进行池化,得到和通道尺寸相同的重排融合向量;利用得到的重排融合向量,计算出重排融合的新通道和对应的权重,对某一通道的特征图按计算的权重累加到新通道及其相邻通道上,遍历所有通道,待所有通道都加权累加后便得到融合后的特征图。本发明的模块,可以无缝插入到任何卷积神经网络当中,加强不同通道信息的交流,可应用于图像分类的网络、目标检测、语义分割等任务的主干网络中。
-
公开(公告)号:CN113057633B
公开(公告)日:2022-11-01
申请号:CN202110324847.5
申请日:2021-03-26
申请人: 华南理工大学 , 中山市华南理工大学现代产业技术研究院
摘要: 本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,该方法包括:获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。本发明选取的多模态数据在表征情绪压力时存在内在关联,并通过深度学习模型充分挖掘多模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。
-
公开(公告)号:CN113057633A
公开(公告)日:2021-07-02
申请号:CN202110324847.5
申请日:2021-03-26
申请人: 华南理工大学 , 中山市华南理工大学现代产业技术研究院
摘要: 本发明提供了一种多模态情绪压力识别方法、装置、计算机设备及存储介质,该方法包括:获取多模态数据并进行预处理,得到训练样本集;其中,所述多模态数据包括人脸视频图像数据和光电容积脉搏波数据;利用注意力卷积神经网络、门控循环单元和全连接层,构建深度学习模型;利用训练样本集对深度学习模型进行训练,直至深度学习模型收敛;将待识别样本输入至训练好的深度学习模型,得到情绪压力的识别结果。本发明选取的多模态数据在表征情绪压力时存在内在关联,并通过深度学习模型充分挖掘多模态数据中的空间信息和时间信息并将其融合,使得深度学习模型更关注数据中最能表征情绪压力的部分,从而提高情绪压力识别的准确率。
-
公开(公告)号:CN109065033B
公开(公告)日:2021-03-30
申请号:CN201811091089.1
申请日:2018-09-19
申请人: 华南理工大学
摘要: 本发明属于自动语音识别技术领域,涉及一种基于随机深度时延神经网络模型的自动语音识别方法,包括:准备训练数据;对训练语音音频数据提取声学特征;训练传统GMM‑HMM模型,用训练好的GMM‑HMM模型对训练语音音频数据进行强制对齐,得到对应的帧级别训练标注;利用训练语音音频数据和对应的帧级别训练标注,对基于随机深度的时延神经网络模型进行监督训练,最终结合隐马尔科夫模型得到声学模型;利用对应的文本标注数据或者其他数据集的文本进行训练,得到训练好的语言模型;利用训练好的语言模型和声学模型,构建自动语音识别的解码器。本发明不仅提高了模型的建模能力,还解决了训练过程中过拟合以及梯度消失的问题,从而提高了语音识别的准确性。
-
公开(公告)号:CN108108606A
公开(公告)日:2018-06-01
申请号:CN201711444922.1
申请日:2017-12-27
申请人: 华南理工大学
CPC分类号: G06F21/32 , G06F2221/2141 , G06K9/00255 , G06K9/00268 , G06K9/00288 , G06K9/6211 , G06K9/6227 , G06K9/6247 , G06Q50/205 , G07C1/10
摘要: 本发明公开了一种基于人脸识别技术的实验教学管理系统,该发明针对人脸识别相关技术,围绕基于人脸识别技术的实验教学管理系统进行开发研究。本系统除了实现传统的实验教学的数据管理外,在帐号密码验证身份的基础上进行创新,增加了人脸识别的验证功能。人脸识别的验证功能在实验实践教学的应用中,可自动抓拍实验者的实验过程,上传实验报告等实验数据时需进行人脸识别验证身份,有效地减少了实验过程中出现的替代实验与替代上交实验数据等学术不良行为。另一方面,通过统计分析实验过程中的抓拍图像,总结实验教学经验,可进一步的提高教学质量。
-
公开(公告)号:CN106601229A
公开(公告)日:2017-04-26
申请号:CN201611003861.0
申请日:2016-11-15
申请人: 华南理工大学
摘要: 本发明公开了一种基于soc芯片的语音唤醒方法,包括以下步骤:S1、芯片采集语音数据,并对其进行采样,将模拟信号转换成数字信号;S2、将数字信号的语音数据进行MFCC特征提取;S3、对MFCC特征值进行语音活动检测,判断当前MFCC特征值的新一帧MFCC数据是否为语音帧,若否则返回步骤S2并释放数据,若是则将MFCC特征值进入下一步骤处理;S4、通过基于HMM模型的语音识别算法对MFCC特征值进行识别,若识别结果为有效指令,则唤醒控制设备;反之则返回步骤S2。本发明方法通过采用鲁棒性高的算法实现的实时系统具有较高的识别率,达到低功耗和高性能的要求。
-
公开(公告)号:CN111460728A
公开(公告)日:2020-07-28
申请号:CN202010156709.6
申请日:2020-03-09
申请人: 华南理工大学
摘要: 本发明提供了一种工业设备剩余寿命预测方法、装置、存储介质及设备;其中方法包括如下步骤:获取工业设备的传感器监测数据,对传感器监测数据进行数据预处理并获取训练样本;注意力循环神经网络的模型构建与训练:使用lstm网络和输出全连接层构建注意力循环神经网络;在训练过程中,通过注意力层和lstm网络对多维传感器时间序列中各类传感器时间序列赋予不同权重,将带不同权重的多维传感器时间序列输入lstm网络获取高维特征,最后通过输出全连接层获取预测结果;通过注意力循环神经网络预测剩余寿命。本发明能够对不同的传感器时间序列赋予不同的权重,使模型更加关注与工业设备剩余寿命相关度高的传感器输入,从而提高预测准确率。
-
公开(公告)号:CN111460143A
公开(公告)日:2020-07-28
申请号:CN202010164874.6
申请日:2020-03-11
申请人: 华南理工大学
摘要: 本发明公开了一种多人对话系统的情绪识别模型,包括S1提取数据集中的特征,所述特征包括文本特征及语音特征;S2根据文本特征及语音特征,构建改进的DialogueRNN网络;S3训练改进的DialogueRNN网络,得到最终的声学模型即情绪识别模型。本发明在考虑模型对现实多人对话场景的建模能力、对上下文信息提取能力及模型的大小等方面的因素下,通过引入Listener的Party State和不同人的Emotion State,提高了DialogueRNN情绪识别模型的性能。
-
公开(公告)号:CN107168527A
公开(公告)日:2017-09-15
申请号:CN201710273519.0
申请日:2017-04-25
申请人: 华南理工大学
摘要: 本发明公开了一种基于区域卷积神经网络的第一视角手势识别与交互方法,该方法包括如下步骤:S1、获取训练数据;S2、设计一个基于区域神经网络,在用于手部检测的同时,也用于手势分类与指尖检测,使得神经网络输入为三通道RGB图像,输出为手势区域的外接矩阵左上角坐标和右下角坐标,以及手势类别、手势骨架关键点;S3,判断手势类别,根据不同交互需求输出相应的交互结果。本发明提供了一种完整的第一视角手势识别与交互方法,通过单模型训练与部分网络共享,提高了第一视角下手势识别的识别速度与准确性。
-
-
-
-
-
-
-
-
-