基于bottleneck和通道切分的轻量级说话人识别方法及系统

    公开(公告)号:CN114220438B

    公开(公告)日:2022-05-13

    申请号:CN202210160392.2

    申请日:2022-02-22

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于bottleneck和通道切分的轻量级说话人识别方法及系统,基于bottleneck和通道切分构建基于深度神经网络的说话人识别模型,所述说话人识别模型的网络框架包括轻量级说话人识别网络主体和说话人识别模型池化模块,语音特征首先作为轻量级说话人识别网络主体的输入,输出为不定长的特征,将其作为说话人识别模型池化模块处理后,生成定长的说话人嵌入;使用知识蒸馏进一步提高模型准确率,包括对基于说话人识别模型实现的教师模型进行预训练,定义知识蒸馏的损失函数,使用知识蒸馏训练轻量级的学生网络模型,根据训练结果实现说话人识别。与现有技术相比,本发明可以解决在小型的算力非常有限的嵌入式设备应用场景下的说话人识别任务。

    一种听觉感知响度空间Lombard效应分类方法

    公开(公告)号:CN113450780A

    公开(公告)日:2021-09-28

    申请号:CN202110663924.X

    申请日:2021-06-16

    Applicant: 武汉大学

    Abstract: 本发明公开了一种听觉感知响度空间Lombard效应分类方法,进行Lombard分级录音采集,包括设置各细粒度听觉主观响度级的背景噪声,同步采集各响度级的背景噪声与对应的纯净语音;采用基于空气传播与骨传导的双路自反馈机制,提取说话人感知的发声自反馈;基于各级背景噪声与对应的发声自反馈,采用短时客观可懂度测度指标实现Lombard效应分类。与现有技术相比,本发明结合听觉主观响度级与发声自反馈机制研究Lombard效应的分类模型,可以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题,支持Lombard语料库的高效采集。

    一种听觉感知响度空间Lombard效应分类方法

    公开(公告)号:CN113450780B

    公开(公告)日:2023-02-24

    申请号:CN202110663924.X

    申请日:2021-06-16

    Applicant: 武汉大学

    Abstract: 本发明公开了一种听觉感知响度空间Lombard效应分类方法,进行Lombard分级录音采集,包括设置各细粒度听觉主观响度级的背景噪声,同步采集各响度级的背景噪声与对应的纯净语音;采用基于空气传播与骨传导的双路自反馈机制,提取说话人感知的发声自反馈;基于各级背景噪声与对应的发声自反馈,采用短时客观可懂度测度指标实现Lombard效应分类。与现有技术相比,本发明结合听觉主观响度级与发声自反馈机制研究Lombard效应的分类模型,可以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题,支持Lombard语料库的高效采集。

    抗噪感知敏感度曲线建立及语音合成方法

    公开(公告)号:CN112037759B

    公开(公告)日:2022-08-30

    申请号:CN202010686375.3

    申请日:2020-07-16

    Applicant: 武汉大学

    Abstract: 本发明提供一种抗噪感知敏感度曲线建立及语音合成方法,包括使用带通滤波,将噪声按人耳感知的临界频带划分,得到若干临界频带噪声;针对每个临界频带噪声,按不同的噪声分贝级,录制对应的抗噪语音序列;基于SII客观测试指标确定感知阈值,对每个临界频带做噪声分贝级感知测试,得到更新后的临界分贝;根据更新后的临界分贝生成抗噪感知敏感度曲线;从抗噪感知敏感度曲线获取临界分贝值,选取不同临界分贝值的抗噪语音,训练抗噪语音特征映射模型,利用映射后的抗噪语音特征进行语音合成。本发明方法利用人们在噪声环境下的听觉特性,提出了一种抗噪感知敏感度曲线建立及语音合成方法,更有利于抗噪语音转换的实际应用场景。

    基于bottleneck和通道切分的轻量级说话人识别方法及系统

    公开(公告)号:CN114220438A

    公开(公告)日:2022-03-22

    申请号:CN202210160392.2

    申请日:2022-02-22

    Applicant: 武汉大学

    Abstract: 本发明提供一种基于bottleneck和通道切分的轻量级说话人识别方法及系统,基于bottleneck和通道切分构建基于深度神经网络的说话人识别模型,所述说话人识别模型的网络框架包括轻量级说话人识别网络主体和说话人识别模型池化模块,语音特征首先作为轻量级说话人识别网络主体的输入,输出为不定长的特征,将其作为说话人识别模型池化模块处理后,生成定长的说话人嵌入;使用知识蒸馏进一步提高模型准确率,包括对基于说话人识别模型实现的教师模型进行预训练,定义知识蒸馏的损失函数,使用知识蒸馏训练轻量级的学生网络模型,根据训练结果实现说话人识别。与现有技术相比,本发明可以解决在小型的算力非常有限的嵌入式设备应用场景下的说话人识别任务。

    抗噪感知敏感度曲线建立及语音合成方法

    公开(公告)号:CN112037759A

    公开(公告)日:2020-12-04

    申请号:CN202010686375.3

    申请日:2020-07-16

    Applicant: 武汉大学

    Abstract: 本发明提供一种抗噪感知敏感度曲线建立及语音合成方法,包括使用带通滤波,将噪声按人耳感知的临界频带划分,得到若干临界频带噪声;针对每个临界频带噪声,按不同的噪声分贝级,录制对应的抗噪语音序列;基于SII客观测试指标确定感知阈值,对每个临界频带做噪声分贝级感知测试,得到更新后的临界分贝;根据更新后的临界分贝生成抗噪感知敏感度曲线;从抗噪感知敏感度曲线获取临界分贝值,选取不同临界分贝值的抗噪语音,训练抗噪语音特征映射模型,利用映射后的抗噪语音特征进行语音合成。本发明方法利用人们在噪声环境下的听觉特性,提出了一种抗噪感知敏感度曲线建立及语音合成方法,更有利于抗噪语音转换的实际应用场景。

Patent Agency Ranking