-
公开(公告)号:CN114283836A
公开(公告)日:2022-04-05
申请号:CN202111582907.X
申请日:2021-12-22
Applicant: 南京工程学院
IPC: G10L21/0272 , G10L21/0308 , G10L21/0216 , G10L21/0232 , G10L15/06 , G10L25/45 , G10L25/75
Abstract: 本发明公开了一种基于门控循环网络的麦克风阵列语音分离方法,采用子带SRP‑PHAT空间谱作为语音分离的特征参数,可以根据空间位置信息有效分离混合信号;采用的GRU网络是LSTM的一种变体,GRU在LSTM网络的基础上减少一个门限,用更新门代替了遗忘门和输出门,其训练参数更少、训练速度更快,且具有与LSTM相当的性能;在频域进行子带分解和目标语音分离,该处理方式减少了分离语音和重构信号过程中信号傅里叶变换和傅里叶逆变换的次数,降低了总运算量。本发明可以实现全向水平方位的语音分离,获得更好的分离语音质量和可懂度,且具有较好的鲁棒性和泛化能力。
-
公开(公告)号:CN111933173B
公开(公告)日:2022-03-01
申请号:CN202010767816.2
申请日:2020-08-03
Applicant: 南京工程学院
IPC: G10L21/04 , G10L21/0316
Abstract: 本发明公开了一种增益平稳调节的动态范围控制算法及系统,涉及音频信号处理技术领域,根据实际动态范围控制程度的需要,给定增益曲线相关参数,参数包括过渡段的起始点、过渡段的带宽及压缩段的斜率,通过求出过渡段曲线方程的未知参数,进而得出整个增益曲线;根据输入语音信号的幅度大小及增益曲线确定实时增益,通过期望增益和实际增益的平稳调节,确保参与运算的增益平稳变化。本发明的方法通过数据缓存,进一步确保增益能够跟上当前点数据对增益的需要,使得结果准确,与经典DRC算法相较,本发明所用方法的突出优势在于能够较小失真地对原始音频信号进行缩放处理,不会对后续功能模块造成影响。
-
公开(公告)号:CN110739005B
公开(公告)日:2022-02-01
申请号:CN201911035076.7
申请日:2019-10-28
Applicant: 南京工程学院
IPC: G10L21/0232 , G10L21/0264 , G10L21/0332 , G10L25/03
Abstract: 本发明公开了一种面向瞬态噪声抑制的实时语音增强方法,包括步骤:采用分位噪声估计法来获得稳态噪声谱;利用基于信号重心的方法检测瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;结合语音特征和谐波分析来估计语音存在概率;在语音概率估计的基础上,计算信号增益并作用于含噪语音,从而实现语音增强。本发明提出的方法,能够对瞬态噪声进行有效抑制,在综合语音增强性能和实时性指标方面,明显优于其它经典的语音增强方法。
-
公开(公告)号:CN112151059A
公开(公告)日:2020-12-29
申请号:CN202011028613.8
申请日:2020-09-25
Applicant: 南京工程学院
IPC: G10L21/0216 , G10L21/0224 , G10L25/30
Abstract: 本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法,方法包括:从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;构建多通道语音增强模型;将麦克风阵每路带噪语音的短时傅里叶变换频谱作为多通道语音增强模型的输入特征,对多通道语音增强模型进行预训练;将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。本发明采用U‑NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。
-
公开(公告)号:CN111583948A
公开(公告)日:2020-08-25
申请号:CN202010385976.0
申请日:2020-05-09
Applicant: 南京工程学院
IPC: G10L21/02 , G10L21/0232
Abstract: 本发明公开了一种改进的多通道语音增强系统和方法,将采集的多麦信号输入训练的自适应波束形成网络生成单通道信号;将生成的单通道信号通过共享网络进行信息转换;将转换后的信号输入多目标学习网络的主任务网络得到增强后的语音信号;将转换后的信号输入多目标学习网络的子任务网络得到表征语音信息的特征。本发明避免了声源定位算法,并可以有效的抑制非平稳噪声。本发明在神经网络中加入了LSTM层,能够在一定程度上缓解梯度消失和梯度爆炸问题,减少训练结果不收敛的情况,从而改善语音增强的效果。同时,由于引入多任务学习策略,增加了算法的鲁棒性,提升了算法性能,具有良好的应用前景。
-
公开(公告)号:CN108520753B
公开(公告)日:2020-07-24
申请号:CN201810159072.9
申请日:2018-02-26
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于卷积双向长短时记忆网络的语音测谎方法,包括将整段语音进行统一归一化处理;根据数据库标签对统一归一化处理的语音进行切分;对切分的语音加窗分帧处理;建立变长数据的计算方式;将卷积操作引入长短时记忆网络中;构建完整的语音测谎网络模型;训练语音测谎网络模型,并加窗分帧处理后的语音进行测谎评测。本发明通过将卷积操作引入长短时记忆网络中,构建完整的语音测谎网络模型,实现深度学习,从原始语音数据中提取适用于谎言检测的特征,以提高谎言检测的性能,具有良好的应用前景。
-
公开(公告)号:CN109147808A
公开(公告)日:2019-01-04
申请号:CN201810767532.6
申请日:2018-07-13
Applicant: 南京工程学院
IPC: G10L21/02 , G10L21/0208 , H04R25/00 , G06N3/04
CPC classification number: G10L21/02 , G06N3/0454 , G10L21/0208 , H04R25/30
Abstract: 本发明公开了一种言语增强助听方法,包括以下步骤,步骤(A),多通道语音分解;步骤(B),子带增益调整;步骤(C),言语增强助听网络构建;步骤(D),语音补偿输出:将步骤(B)中进行增益调整后的子带信号输入步骤(C)模型训练后的深度学习网络中,生出补偿后的语音信号,并进行输出。本发明的言语增强助听方法,可以改善传统方法无法抑制与语音同分布噪声的问题,还解决现有技术中言语增强助听方法言语补偿的鲁棒性差、言语补偿效率低下,难以满足患者需求的技术问题,具有良好的应用前景。
-
-
-
-
-
-