-
公开(公告)号:CN110739005A
公开(公告)日:2020-01-31
申请号:CN201911035076.7
申请日:2019-10-28
Applicant: 南京工程学院
IPC: G10L21/0232 , G10L21/0264 , G10L21/0332 , G10L25/03
Abstract: 本发明公开了一种面向瞬态噪声抑制的实时语音增强方法,包括步骤:采用分位噪声估计法来获得稳态噪声谱;利用基于信号重心的方法检测瞬态噪声,并根据是否存在瞬态噪声来修正稳态噪声谱;结合语音特征和谐波分析来估计语音存在概率;在语音概率估计的基础上,计算信号增益并作用于含噪语音,从而实现语音增强。本发明提出的方法,能够对瞬态噪声进行有效抑制,在综合语音增强性能和实时性指标方面,明显优于其它经典的语音增强方法。
-
公开(公告)号:CN109151692A
公开(公告)日:2019-01-04
申请号:CN201810767514.8
申请日:2018-07-13
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于深度学习网络的助听器自验配方法,通过构建患者综合信息库,通过对患者和验配过程的深入分析,发现验配过程中有效的策略,从而构建新的智能助听器自验配模型,提高验配效率;引入深度学习网络,通过大量的数据训练,使网络具有人工智能,能根据患者的基本信息快速生成符合患者听损特性的语音信息,同时还能根据患者的评价反馈,自动调节输入增益,大大缩短验配时间,改善用户满意度。
-
公开(公告)号:CN108520753A
公开(公告)日:2018-09-11
申请号:CN201810159072.9
申请日:2018-02-26
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于卷积双向长短时记忆网络的语音测谎方法,包括将整段语音进行统一归一化处理;根据数据库标签对统一归一化处理的语音进行切分;对切分的语音加窗分帧处理;建立变长数据的计算方式;将卷积操作引入长短时记忆网络中;构建完整的语音测谎网络模型;训练语音测谎网络模型,并加窗分帧处理后的语音进行测谎评测。本发明通过将卷积操作引入长短时记忆网络中,构建完整的语音测谎网络模型,实现深度学习,从原始语音数据中提取适用于谎言检测的特征,以提高谎言检测的性能,具有良好的应用前景。
-
公开(公告)号:CN106901758A
公开(公告)日:2017-06-30
申请号:CN201710099098.4
申请日:2017-02-23
Applicant: 南京工程学院
IPC: A61B5/16
Abstract: 本发明公开了一种基于卷积神经网络的言语置信度评测方法。该方法首先对采集的语音样本进行分帧,并提取每帧的梅尔倒谱系数,构成单通道梅尔倒谱系数图像;然后构建六层卷积神经网络,构建前三层为使用尺寸不同的卷积滤波器的卷积层,第四层为生成全局特征图的聚合层,第五层和第六层为由2048个线性修正单元的全连层;最后将梅尔倒谱系数图像输入构建的卷积神经网络进行言语置信度评测。实验结果显示,该置信度评测方法对谎言的识别率达到73%。
-
公开(公告)号:CN120071972A
公开(公告)日:2025-05-30
申请号:CN202510120197.0
申请日:2025-01-25
Applicant: 南京工程学院
IPC: G10L25/66 , G10L25/45 , G10L25/18 , G10L25/24 , G10L25/21 , G10L19/02 , G10L19/022 , G10L19/26 , G06N3/0464 , G06N3/0442
Abstract: 本发明公开了一种非侵入式语音评分预测方法、系统及介质,属于音频信号处理技术领域。本发明针对处方公式对语音评分预测的影响,融合语音标签优化策略,有效减小因处方公式差异导致的预测偏差,进一步提升模型预测精度;综合考虑语音清晰度映射对敏感性影响的问题,通过引入语音包络特征,实现语音清晰度评分预测精度的显著提升;相较于单任务学习,本发明采用多任务学习框架,通过任务间的协同作用提升各分支的预测性能,不仅可以共用模型中部分语音特征,节省计算资源,还可起到相互促进的作用,有利于预测精度的提升。
-
公开(公告)号:CN119517061A
公开(公告)日:2025-02-25
申请号:CN202411576166.8
申请日:2024-11-06
Applicant: 南京工程学院
IPC: G10L21/0208 , G10L21/0216 , G10L21/0232 , G10L25/30 , G10L25/18
Abstract: 本发明公开了基于异构多尺度卷积循环网络的回声消除方法及系统,首先基于多帧上下文提取相关特征模式构建相关编码器,再根据单帧提取频谱模式构建频谱编码器,接着采用相关编码器和频谱编码器组成异构多尺度编码器并获得多路编码特征;本发明实现了具有利用异构双路编码器从输入混合信号频谱和参考信号频谱中提取不同特征的功能,且为适应参考信号和混合信号之间的时延情况而采用相关性编码并从多帧频谱中提取相关性特征表达,同时为了加强当前帧的频谱分辨率而采用频谱编码从当前帧中提取频谱模式表达,还实现了对于双路特征具有进一步采用通道注意力特征软选择机制融合相关性特征编码和频谱编码的功能,适合被广泛推广和使用。
-
公开(公告)号:CN114067819B
公开(公告)日:2024-06-21
申请号:CN202111385676.3
申请日:2021-11-22
Applicant: 南京工程学院
IPC: G10L21/02 , G06N3/0464 , G06F18/214 , G06F18/22 , G06N3/0442 , G06F18/25 , G06N3/096
Abstract: 本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。
-
公开(公告)号:CN112330713B
公开(公告)日:2023-12-19
申请号:CN202011346536.0
申请日:2020-11-26
Applicant: 南京工程学院
IPC: G06T7/207 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应(56)对比文件Yue Xie;Cai-Rong Zou;Rui-Yu Liang;Hua-Wei Tao.Phoneme Recognition Based onDeep Belief Network《.2016 InternationalConference on Information System andArtificial Intelligence (ISAI)》.2016,全文.马宁;田国栋;周曦.一种基于long short-term memory的唇语识别方法.中国科学院大学学报.2018,(01),全文.荣传振;岳振军;贾永兴;王渊;杨宇.唇语识别关键技术研究进展.数据采集与处理.2012,(S2),全文.刘大运;房国志;骆天依;魏华杰;王倩.基于BiLSTM-Attention唇语识别的研究《.计算技术与自动化》.2020,全文.Bor-Shing Lin;Yu-Hsien Yao;Ching-FengLiu;Ching-Feng Lien;Bor-ShyhLin.Development of Novel Lip-ReadingRecognition Algorithm《.IEEE Access》.2017,全文.
-
公开(公告)号:CN116699523A
公开(公告)日:2023-09-05
申请号:CN202310630829.9
申请日:2023-05-31
Applicant: 南京工程学院
IPC: G01S5/22 , G01S3/802 , G06F17/15 , G06F17/14 , G06N3/0464
Abstract: 本发明公开了一种基于复倒谱差函数和深度神经网络的声源定位方法,属于语音识别领域,本方法从空间特征和模型构建两方面入手,首先提取复倒谱差函数作为特征参数,然后设计深度神经网络的声源定位模型,建立复倒谱差函数与声源方位之间的映射关系,从而实现复杂环境中高准确率的声源定位。不同声学环境下的实验结果表明,本发明显著了提高声源定位的性能,并且对混响具有较好的鲁棒性。
-
公开(公告)号:CN116341616A
公开(公告)日:2023-06-27
申请号:CN202211412348.2
申请日:2022-11-11
Applicant: 南京工程学院
IPC: G06N3/0464 , G06N3/08 , G06Q50/06
Abstract: 本发明公开了基于矩阵重构二维卷积网络的电力负载信息获取方法,首先采集电器的总用电功率并作为输入序列y,再在输入序列y中加入余弦位置编码并得到编码序列ye,接着对编码序列ye进行滑窗截取并得到序列重构矩阵M,随后对输入序列y进行单位延时并得到延时序列y1,再求得动态检测序列yd,然后对序列重构矩阵M进行奇异值分解并得到分解重构子矩阵Mi,再对动态检测序列yd进行滑窗截取并得到动态检测重构矩阵Md;本发明通过采用将序列延时重构为矩阵的方法,能够充分利用序列的时序特性,并能在压缩网络参数量和训练时间的前提下增加网络层数,提升了负荷监测的精度,适合被广泛推广和使用。
-
-
-
-
-
-
-
-
-