-
公开(公告)号:CN119564200A
公开(公告)日:2025-03-07
申请号:CN202411646554.9
申请日:2024-11-18
Applicant: 南京工程学院 , 中国听力语言康复研究中心
IPC: A61B5/12 , G16H50/30 , G06N3/0442 , G06F18/25 , G06F18/22
Abstract: 本发明公开了一种基于言语测听的听障患者听损评测方法及系统,首先利用言语测听的原始音频数据构建具有原始音频声纹特征的语音合成模型,再清洗原始音频文本数据和用户反馈文本数据,接着采用语音合成模型将原始音频文本数据和用户反馈文本数据转换为音频信号并获得第一音频信号和第二音频信号,再将第一音频信号和第二音频信号进行傅里叶变换并计算各频点能量从而获得多组测听音频数据;本发明实现了具有自动评测患者听力状态的功能,且不需要额外的纯音测听过程,同时基于言语测听结果自动评测患者听力状态的方法能融合患者的个性信息进行评测,不仅评测效率较高,还使得评测结果更为准确,适合被广泛推广和使用。
-
公开(公告)号:CN116434766A
公开(公告)日:2023-07-14
申请号:CN202310414553.0
申请日:2023-04-17
Applicant: 南京工程学院
IPC: G10L21/0264 , G10L21/0224 , G10L21/0232 , G10L21/0332 , G10L25/30 , G10L25/12 , G10L25/18 , G10L25/21 , H04R25/00 , G06N3/045 , G06N3/0442 , G06N3/0464 , G06N3/0475 , G06N3/048 , G06N3/094 , G06N3/084
Abstract: 本发明公开了一种结合听损补偿和语音降噪的语音增强方法,包括:将听力损失图沿频率轴进行延展嵌入得到听力损失谱,并将听力损失谱与带噪训练语音的复频谱图特征叠合;构建基于频率‑时间卷积递归的度量生成对抗网络模型,模型主体结构包含补偿生成器和度量鉴别器;交替训练补偿生成器与度量鉴别器,优化度量生成对抗网络模型;将待测语音的复频谱图特征与听力损失谱叠合后输入到训练好的补偿生成器,根据补偿生成器的输出重建待测语音的增强语音波形。本发明通过度量生成对抗网络同时完成降噪与针对特定听力图的听损补偿,能够稳定有效地提升带噪环境下听损补偿的效果,方法巧妙新颖,具有良好的应用前景。
-
公开(公告)号:CN113411733B
公开(公告)日:2023-04-07
申请号:CN202110679746.X
申请日:2021-06-18
Applicant: 南京工程学院
IPC: H04R25/00
Abstract: 本发明公开了一种面向免验配助听器的参数自调节方法,包括以下步骤:步骤一:确定10组参数[a1,b1,a2,b2,r,s,t]1~10;步骤二:根据患者在中心频率CF处的听力损失,分别计算10组参数对应的内/外毛细胞听力损失,正常耳和患耳的最大增益和补偿系数;步骤三:将输入语音xin分帧加窗,并计算每帧信号的能量谱E(k);步骤四:计算10组参数对应的补偿增益;步骤五:将步骤四计算得出的补偿增益作用在信号谱上,获得补偿后的10组语音信号;步骤六:计算10组语音信号的适应度,并重新生成10组参数。该面向免验配助听器的参数自调节方法根据耳蜗听损模型建立响度补偿模型,同时基于智能算法自适应调节参数,具有响度补偿效果好且调配方便的优点。
-
公开(公告)号:CN109147808B
公开(公告)日:2022-10-21
申请号:CN201810767532.6
申请日:2018-07-13
Applicant: 南京工程学院
IPC: G10L21/02 , G10L21/0208 , H04R25/00 , G06N3/04
Abstract: 本发明公开了一种言语增强助听方法,包括以下步骤,步骤(A),多通道语音分解;步骤(B),子带增益调整;步骤(C),言语增强助听网络构建;步骤(D),语音补偿输出:将步骤(B)中进行增益调整后的子带信号输入步骤(C)模型训练后的深度学习网络中,生出补偿后的语音信号,并进行输出。本发明的言语增强助听方法,可以改善传统方法无法抑制与语音同分布噪声的问题,还解决现有技术中言语增强助听方法言语补偿的鲁棒性差、言语补偿效率低下,难以满足患者需求的技术问题,具有良好的应用前景。
-
公开(公告)号:CN109243494B
公开(公告)日:2022-10-11
申请号:CN201811273105.9
申请日:2018-10-30
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于多重注意力机制长短时记忆网络的儿童情感识别方法,将测试集语音进行端点检测且分帧切割,提取时序相关特征;对于长度不同的提取时序相关特征建立长短时记忆网络的处理算法;将注意力机制结合时序的深度的策略引入长短时记忆网络的遗忘门,输入门以及最终输出上;最后,将待测样本输入训练过程中的改进长短时记忆网络,可显著识别出其情感信息,本发明通过将注意力机制结合时序的深度引入长短时记忆网络的遗忘门,输出门,以及长短时记忆网络的最终输出上,在大量减少参数量的同时,提升了算法性能,增加了方法设计上的灵活性,且识别效率高,具有良好的应用前景。
-
公开(公告)号:CN114067819A
公开(公告)日:2022-02-18
申请号:CN202111385676.3
申请日:2021-11-22
Applicant: 南京工程学院
Abstract: 本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。
-
公开(公告)号:CN112686295B
公开(公告)日:2021-08-24
申请号:CN202011587016.9
申请日:2020-12-28
Applicant: 南京工程学院
IPC: G06K9/62
Abstract: 本发明公开了一种个性化听力损失建模方法,步骤(A)、获取大量听障患者样本的听力图和对应的助听器插入增益;步骤(B)、将听障患者样本按照听损程度分为中度听损、重度听损和极重度听损三类;步骤(C)、针对分类后的中度听损、重度听损和极重度听损的听障患者样本,将每类听障患者样本的助听器插入增益分别进行分类;步骤(D)、计算各类别下的助听器插入增益对应的听力图曲线的平均值,用来表征各类个体听力损失;步骤(E)、对于待分类的听力图,计算其与每类个体听力损失的距离并按照其与每类个体听力损失的最小距离进行归类。可以使助听器验配尽可能少的依赖听力专家,弥补现有助听器技术单纯依靠听力图进行听力损失分类的不足。
-
公开(公告)号:CN112686295A
公开(公告)日:2021-04-20
申请号:CN202011587016.9
申请日:2020-12-28
Applicant: 南京工程学院
IPC: G06K9/62
Abstract: 本发明公开了一种个性化听力损失建模方法,步骤(A)、获取大量听障患者样本的听力图和对应的助听器插入增益;步骤(B)、将听障患者样本按照听损程度分为中度听损、重度听损和极重度听损三类;步骤(C)、针对分类后的中度听损、重度听损和极重度听损的听障患者样本,将每类听障患者样本的助听器插入增益分别进行分类;步骤(D)、计算各类别下的助听器插入增益对应的听力图曲线的平均值,用来表征各类个体听力损失;步骤(E)、对于待分类的听力图,计算其与每类个体听力损失的距离并按照其与每类个体听力损失的最小距离进行归类。可以使助听器验配尽可能少的依赖听力专家,弥补现有助听器技术单纯依靠听力图进行听力损失分类的不足。
-
公开(公告)号:CN109199411B
公开(公告)日:2021-04-09
申请号:CN201811135018.7
申请日:2018-09-28
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于模型融合的案件知情者识别方法,包括以下步骤,提取各个被测试者在观看单一图片时的32维眼动特征;基于32维眼动特征训练支撑向量机模型A,来识别每个被测试者在单一图片时的言语置信度,并输出每个被测试者在单一图片时的概率f1(xi)和f2(xi);提取各个被测试者在观看组合图片时的110维眼动特征;基于110维眼动特征训练支撑向量机模型B,来识别每个被测试者在组合图片时的言语置信度,并输出每个被测试者在组合图片时的概率g1(xi)和g2(xi);运用乘法规则,融合支撑向量机模型A和B的分类器概率,得到联合概率,取各个被测试者的概率最大的类别为最后的决策结果。本发明可以有效抑制反测谎手段,提高了算法效率。
-
公开(公告)号:CN112330713A
公开(公告)日:2021-02-05
申请号:CN202011346536.0
申请日:2020-11-26
Applicant: 南京工程学院
Abstract: 本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应用前景。
-
-
-
-
-
-
-
-
-