-
公开(公告)号:CN114898777A
公开(公告)日:2022-08-12
申请号:CN202210513096.6
申请日:2022-05-12
Applicant: 东南大学
Abstract: 本发明公开了一种基于深度直推式迁移网络的跨库语音情感识别方法及装置,方法包括:(1)获取源语音情感数据库和目标语音情感数据库(2)将源数据库和目标数据库的情感音频处理成语谱图(3)建立深度回归神经网络(4)将源数据库和目标数据库的语谱图输入深度回归神经网络进行训练,将从网络得到的特征来计算源数据和目标数据的、不同尺度的最大均值差异,对神经网络进行微调(5)将待识别语音作为目标数据库中的语音数据,输入训练好的深度卷积神经网络,得到语音情感类型。本发明识别准确率更高。
-
公开(公告)号:CN115497508B
公开(公告)日:2025-02-25
申请号:CN202211010154.X
申请日:2022-08-23
Applicant: 东南大学
Abstract: 本发明公开了一种基于CDAR模型的跨库语音情感识别方法及装置,方法包括:(1)获取两个语音情感数据库,分别作为训练数据库和测试数据库,(2)从训练数据库和测试数据库中提取具有相同情感类别标签的语音样本,分别作为源域样本和目标域样本,并提取源域样本和目标域样本的IS09特征作为样本特征;(3)建立协同分布适配回归CDAR模型,(4)利用交替方向法和非精确增广拉格朗日乘子求解CDAR模型,得到投影矩阵U的最优值#imgabs0#(5)对于待识别语音,提取IS09特征,并采用学习到的#imgabs1#投影得到对应的情感类别。本发明识别准确率更高。
-
公开(公告)号:CN117219126A
公开(公告)日:2023-12-12
申请号:CN202311373019.6
申请日:2023-10-23
Applicant: 东南大学
Abstract: 本发明公开了一种基于TSTRN(双阶段迁移回归神经网络)的跨库语音情感识别方法及装置,包括:(1)选择两个不同的语音情感数据库作为源数据库和目标数据库;(2)对于源数据库和目标数据库的各语音样本进行预处理,提取语谱图特征;(3)建立TSTRN;(4)对TSTRN进行双阶段训练,其中第一阶段将源数据库和目标数据库的语谱图特征同时输入,基于领域对齐任务,减少训练数据和测试数据的特征分布差异,第二阶段对于第一阶段训练的TSTRN基于语音情感识别任务进行微调,使得具有情感区分性;(5)对于待识别的语音样本,提取语谱图特征后输入到经过训练的TSTRN,得到情感分类结果。本发明效果更好。
-
公开(公告)号:CN115019213B
公开(公告)日:2024-12-20
申请号:CN202210758801.9
申请日:2022-06-30
Applicant: 东南大学
IPC: G06V20/17 , G06V10/82 , G06V10/764 , G06N3/0464 , G06N3/084
Abstract: 本发明公开了一种基于置信度显著分析的多尺度目标检测方法及装置,方法包括:(1)获取基于航拍的遥感图像目标检测数据库;(2)将数据库中的遥感图像进行预处理;(3)建立深度卷积神经网络;(4)将预处理的图像及其对应标签作为样本输入卷积神经网络,进行训练,训练时采用的损失函数为位置回归损失、置信度交叉熵损失、分类交叉熵损失以及利用置信度计算的显著性损失之和;(5)将待识别的遥感图像预处理后,作为样本输入训练好的深度卷积神经网络,并进行非极大抑制,得到最终的目标检测结果。本发明准确率更高。
-
公开(公告)号:CN118942489A
公开(公告)日:2024-11-12
申请号:CN202411174686.6
申请日:2024-08-26
Applicant: 东南大学
Abstract: 本发明公开了一种基于可控情感强度的语音编辑方法及装置,涉及语音信号处理技术领域,包括:获取原始样本数据,其中,所述原始样本数据包括音频数据、文本数据和情感类别标签;将文本数据转换为音频序列,将音频数据转换为梅尔谱图;将梅尔谱图输入至情感强度感知神经网络模型的后验网络内,提取得到语调特征,其中,所述语调特征包括说话人基频信息以及效价、唤醒度和支配度的数值;将音频序列和效价、唤醒度和支配度的数值输入至情感强度感知神经网络模型的先验网络内,得到内容与节奏特征;将内容与节奏特征以及语调特征输入至预先建立的情感强度感知神经网络模型的解码器内,输出得到潜在中间特征,根据潜在中间特征生成情感音频数据。
-
公开(公告)号:CN117352007A
公开(公告)日:2024-01-05
申请号:CN202311373024.7
申请日:2023-10-23
Applicant: 东南大学
Abstract: 本发明公开了一种基于LIDAN(层自适应隐式分布对齐神经网络)的跨库语音情感识别方法及装置,包括如下步骤:(1)获取训练数据库和测试数据库;(2)将训练数据库和测试数据库中的各语音样本分别转换为语谱图;(3)构建层自适应隐式分布对齐神经网络LIDAN,包括卷积神经网络、多层感知机、情感分类器、深度回归模块、层自适应隐式分布对齐模块和损失计算模块;(4)基于训练数据库和测试数据库的语音样本的语谱图,对LIDAN进行训练;(5)对于待识别的语音样本,将其转换为语谱图后输入LIDAN,得到预测的情感类别。本发明识别效果更好。
-
公开(公告)号:CN118098195A
公开(公告)日:2024-05-28
申请号:CN202410200483.3
申请日:2024-02-23
Applicant: 东南大学
IPC: G10L13/027 , G10L13/10 , G10L25/60
Abstract: 本发明公开了一种基于多层级韵律特征的情感语音生成方法及装置,方法包括:将文本数据转换为拼音序列,将所述音频数据转换为线性声谱图;根据所述拼音序列预测具有情感类别标签对应情感的语言学韵律变量;根据所述线性声谱图提取具有情感类别标签对应情感的声学韵律变量,将所述语言学韵律变量和声学韵律变量进行匹配,合成潜在韵律变量;根据潜在韵律变量生成情感音频数据,以及情感音频数据的音频质量和自然度。本发明效果更精准、生成情感语音的自然度更高。
-
公开(公告)号:CN117275524A
公开(公告)日:2023-12-22
申请号:CN202311349586.8
申请日:2023-10-18
Applicant: 东南大学
Abstract: 本发明公开了一种基于时频Transformer的语音情感识别方法及系统,通过特征提取模块得到的语音对数梅尔频谱特征时频情感信息丰富,然后通过编码器与相应的Transformer模块得到与情感高度相关又与噪声等干扰无关的高泛化性的特征,最后利用分类器模块判别样本的情绪类别,本发明识别率更高、泛化性更好。
-
公开(公告)号:CN115497507A
公开(公告)日:2022-12-20
申请号:CN202210956627.9
申请日:2022-08-10
Applicant: 东南大学
Abstract: 本发明公开了一种基于渐进式迁移神经网络的跨库语音情感识别方法及装置,方法包括:获取源域和目标域的若干语音信号;获取语音信号的频谱特征;建立渐进式迁移神经网络,包括深度特征提取器、情感判别器和损失计算模块,深度特征提取器用于提取低、中、高三层高维情感特征;情感判别器用于基于源域的高层高维情感特征进行情感分类;损失计算模块包括第一情感判别性保持损失计算单元、第二情感判别性保持损失计算单元、联合特征分布对齐损失计算单元、分类交叉熵损失计算单元和总损失计算单元;对神经网络进行网络训练;将情感语音样本输入神经网络,识别出情感类别。本发明可消除源域和目标域特征分布差异,识别效果更好,识别率更高。
-
公开(公告)号:CN115019213A
公开(公告)日:2022-09-06
申请号:CN202210758801.9
申请日:2022-06-30
Applicant: 东南大学
IPC: G06V20/17 , G06V10/82 , G06V10/764 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于置信度显著分析的多尺度目标检测方法及装置,方法包括:(1)获取基于航拍的遥感图像目标检测数据库;(2)将数据库中的遥感图像进行预处理;(3)建立深度卷积神经网络;(4)将预处理的图像及其对应标签作为样本输入卷积神经网络,进行训练,训练时采用的损失函数为位置回归损失、置信度交叉熵损失、分类交叉熵损失以及利用置信度计算的显著性损失之和;(5)将待识别的遥感图像预处理后,作为样本输入训练好的深度卷积神经网络,并进行非极大抑制,得到最终的目标检测结果。本发明准确率更高。
-
-
-
-
-
-
-
-
-