-
公开(公告)号:CN119446166A
公开(公告)日:2025-02-14
申请号:CN202411674055.0
申请日:2024-11-21
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于融合空间特征的多通道语音增强方法,首先从带噪多通道语音中分别提取多通道复频谱特征和融合空间特征,再将提取的多通道复频谱特征和融合空间特征输入深度神经网络进行处理并设定处理目标为理想复值比率掩蔽,再构建基于复卷积编码器解码器结构的深度复卷积循环语音增强网络,再利用深度复卷积循环语音增强网络对多通道复频谱特征和融合空间特征进行处理,输出预测复值比率掩蔽。本发明充分整合光谱信息、方向特征、通道间特征和相关系数特征,并对动态声源进行空间建模,使得网络对于语音信号的理解和处理能力远超传统方法,能够有效应对复杂多变的语音场景,有效地提升静态场景和动态场景下的语音增强效果。
-
公开(公告)号:CN116778937B
公开(公告)日:2024-01-23
申请号:CN202310314078.X
申请日:2023-03-28
Applicant: 南京工程学院
IPC: G10L21/013 , G06N3/0464 , G06N3/0475 , G06N3/094 , G10L19/16 , G10L25/18 , G10L25/24 , G10L25/30
Abstract: 本发明公开了一种基于说话人对抗子网络的语音转换方法。本发明通过在将说话人对抗子网络嵌入至语音转换模型StarGAN‑VC2中,提出了添加说话人对抗子网络辅助特征解码的策略,并融合了说话人对抗损失函数与生成器损失函数,使得二者在对抗中提高编码器的说话人身份信息去除效果,同时为了更好地适应语音转换任务,引入了自适应实例归一化算法辅助特征解码,能够有效的提升语音转换的质量以及说话人相似度,因此,使得语音在转换过程中,具有检验与反馈机制,非语义特征剔除彻底,可以在保持多对多的非平行语料转换方法优越性的前提下,创造出一个说话人身份信息去除辅助与验证机(56)对比文件Yutian Wang et al.FeatureQuantization for Many-to-many VoiceConversion. 2020 IEEE InternationalConference on Information Technology,BigData and Artificial Intelligence (ICIBA).2020,全文.
-
-
公开(公告)号:CN116453547A
公开(公告)日:2023-07-18
申请号:CN202210620231.7
申请日:2022-06-02
Applicant: 南京工程学院
IPC: G10L25/60 , G10L25/30 , H04R25/00 , G06F18/2415 , G06N3/0464 , G06N3/045 , G06N3/0442 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明公开基于听损分类的助听器语音质量自评价方法,包括构建由帧级特征提取网络、听损分类子网络、质量预测子网络构成的语音质量自评估网络;基于助听器处理后信号计算浅层特征,利用帧级特征提取网络学习失真信号的深层表示,从而获得帧级特征;形状重置后的帧级特征分别通过听损分类子网络和质量预测子网络得到失真语音补偿前听力损失程度的分类情况和质量评分的预测值。本发明依照多任务训练策略,将预测失真信号的质量评分作为主任务,预测失真信号的质量分类作为辅任务,通过训练时损失函数的权重因子调节主、辅任务在网络中的重要程度,提高了无参考助听器语音质量评价方法的准确性,简化了处理过程。
-
公开(公告)号:CN110853668B
公开(公告)日:2022-02-01
申请号:CN201910845466.4
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention‑RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。
-
公开(公告)号:CN109199412B
公开(公告)日:2021-11-09
申请号:CN201811135081.0
申请日:2018-09-28
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于眼动数据分析的异常情绪识别方法,包括以下步骤,拍摄多个受测者的眼动视频样本,并提取各受测者对应的眼动视频样本内的32维眼动特征;对多个受测者的32维眼动特征的数据进行异常分析,并将异常的样本数据归为异常情绪类别,将非异常的样本数据归为非异常特征样本;基于非异常特征样本,从32维眼动特征中提取6维有效眼动特征;基于提取的6维有效眼动特征,输入训练好的支撑向量机模型,从而识别具有异常情绪的样本。本发明基于眼动数据分析引入的异常数据处理机制,大大提高了算法效率;并采用特征选择方法,降低了特征维度,在改善训练时间的同时,有效提高类似犯罪知情者的异常情绪识别。
-
公开(公告)号:CN113411733A
公开(公告)日:2021-09-17
申请号:CN202110679746.X
申请日:2021-06-18
Applicant: 南京工程学院
IPC: H04R25/00
Abstract: 本发明公开了一种面向免验配助听器的参数自调节方法,包括以下步骤:步骤一:确定10组参数[a1,b1,a2,b2,r,s,t]1~10;步骤二:根据患者在中心频率CF处的听力损失,分别计算10组参数对应的内/外毛细胞听力损失,正常耳和患耳的最大增益和补偿系数;步骤三:将输入语音xin分帧加窗,并计算每帧信号的能量谱E(k);步骤四:计算10组参数对应的补偿增益;步骤五:将步骤四计算得出的补偿增益作用在信号谱上,获得补偿后的10组语音信号;步骤六:计算10组语音信号的适应度,并重新生成10组参数。该面向免验配助听器的参数自调节方法根据耳蜗听损模型建立响度补偿模型,同时基于智能算法自适应调节参数,具有响度补偿效果好且调配方便的优点。
-
公开(公告)号:CN112185423A
公开(公告)日:2021-01-05
申请号:CN202011041520.9
申请日:2020-09-28
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多头注意力机制的语音情感识别方法,包括如下步骤:从原始语音数据中提取具有时序信息的语音特征;建立具有处理时序能力的LSTM模型;用多头注意力对LSTM模型的输出在时间维度和特征维度上分别进行注意力加权,区分不同时间片段内情感的饱和度以及不同特征对情感的识别能力;将时间维度和特征维度分别加权后的输出输入全连接层和softmax层得到语音情感类别;用已知的原始语音数据样本训练情感识别模型,并对识别性能进行评测;将未知的原始语音数据样本输入训练好的情感识别模型,输出对应的语音情感类别。本发明通过多头注意力机制来强化LSTM模型的输出,以提高语音情感识别性能,具有良好的应用前景。
-
公开(公告)号:CN111968677A
公开(公告)日:2020-11-20
申请号:CN202010854269.1
申请日:2020-08-21
Applicant: 南京工程学院
Abstract: 本发明公开了一种面向免验配助听器的语音质量自评估方法,包括:构建并训练语音质量自评估网络:待测语音通过卷积神经网络提取并输出待测语音的帧级特征;待测语音的帧级特征通过循环神经网络得到并输出待测语音的段级特征;待测语音的段级特征输入至线性映射模型和Softmax分类器,对分类器的输出进行判决确定语音的失真类型,并结合线性映射模型的输出得到客观评分。本发明公开了一种面向免验配助听器的语音质量自评估方法,将卷积神经网络、循环神经网络和Softmax分类器有机地结合成一个整体,结合卷积神经网络的特征挖掘能力和循环神经网络的时序建模能力,提高无参考语音质量客观评价方法准确度,大大简化了处理过程。
-
公开(公告)号:CN110853668A
公开(公告)日:2020-02-28
申请号:CN201910845466.4
申请日:2019-09-06
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多种特征融合的语音篡改检测方法,检测语音文件是否为拼接而成,包括以下步骤:步骤S1、将待检测的语音数据进行分帧,划分为多组语音数据帧;步骤S2、对每组语音数据帧提取多维特征;步骤S3、构建基于Attention-RNN的模型作为分类器;步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器,从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异,将多种特征相结合,语音特征挖掘更加丰富,利用注意力机制为同一样本的局部赋予不同的重要性,自动学习出时序信号的特征。
-
-
-
-
-
-
-
-
-