-
公开(公告)号:CN101188878B
公开(公告)日:2010-06-02
申请号:CN200710168614.0
申请日:2007-12-05
申请人: 武汉大学
摘要: 本发明公开了一种立体声音频信号的空间参数量化及熵编码方法及其所用系统结构,首先将立体声音频信号的空间参数的量化在不同的频带使用不同的量化表,通过查表进行非线性的标量量化,然后将得到的各个空间参数的量化指标组合成一个向量,并与上一帧的量化指标向量差分,最后根据当前频带对应的Huffman码表将得到差分量化指标向量进行Huffman熵编码。本发明利用空间参数听觉感知与频带的依赖关系以及空间参数间的相关性,有效去除空间参数的主观和客观冗余,可以在同样的编码码率下提高空间参数立体声编码的音质,或者在同样的编码音质下,降低编码码率。
-
公开(公告)号:CN101149925A
公开(公告)日:2008-03-26
申请号:CN200710053769.X
申请日:2007-11-06
申请人: 武汉大学
摘要: 本发明公开了一种用于参数立体声编码的空间参数选取方法。在参数立体声编码中,有耳间时间差、耳间强度差、和耳间相关度这三个空间参数用来描述立体声信号中的空间信息,本发明将信号分成低频、中频、和高频三个频段,根据空间参数的编码码率,在每个频段选取不同的空间参数组合用以描述空间信息。相对全频带提取相同空间参数的现有方法,本发明利用空间参数的听觉重要性与频率相关这一特性,提高了空间信息表达的有效性,进而提高了参数立体声的编码效率。
-
公开(公告)号:CN117831516A
公开(公告)日:2024-04-05
申请号:CN202311778401.5
申请日:2023-12-22
申请人: 武汉大学
IPC分类号: G10L15/16 , G06F18/213 , G06F18/214 , G06F18/24 , G06N3/048 , G06N3/08 , G10L15/02 , G10L25/03 , G10L25/30 , G10L25/51
摘要: 本发明提供一种对不同设备或地点的自适应环境音频分类方法及系统,进行构建训练集和测试集,包括使用不同设备在不同城市采集不同场景的环境音,根据跨城市,跨设备和跨城市跨设备三种任务场景对采集数据进行相应的训练集和测试集分割;构建基于多领域分类器并联结构的深度学习网络模型,框架主体采用对MCD与基于GRL的领域分类器并联的结构,实现对音频中的场景,设备和城市特征的解耦;计算损失函数以进行模型领域自适应训练,其中包括由MCD对场景分类损失函数,以及基于GRL的领域分类器对场景,城市和设备分类损失函数;模型训练完成后,可得到自适应环境音频分类输出。本发明能在有限数据量下实现跨城市,跨设备的环境音频分类。
-
公开(公告)号:CN110970044B
公开(公告)日:2022-06-07
申请号:CN201911180882.3
申请日:2019-11-27
申请人: 武汉大学
摘要: 本发明公开了一种面向语音识别的语音增强方法,包括:步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。本发明方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。
-
公开(公告)号:CN114220438B
公开(公告)日:2022-05-13
申请号:CN202210160392.2
申请日:2022-02-22
申请人: 武汉大学
摘要: 本发明提供一种基于bottleneck和通道切分的轻量级说话人识别方法及系统,基于bottleneck和通道切分构建基于深度神经网络的说话人识别模型,所述说话人识别模型的网络框架包括轻量级说话人识别网络主体和说话人识别模型池化模块,语音特征首先作为轻量级说话人识别网络主体的输入,输出为不定长的特征,将其作为说话人识别模型池化模块处理后,生成定长的说话人嵌入;使用知识蒸馏进一步提高模型准确率,包括对基于说话人识别模型实现的教师模型进行预训练,定义知识蒸馏的损失函数,使用知识蒸馏训练轻量级的学生网络模型,根据训练结果实现说话人识别。与现有技术相比,本发明可以解决在小型的算力非常有限的嵌入式设备应用场景下的说话人识别任务。
-
公开(公告)号:CN113450780A
公开(公告)日:2021-09-28
申请号:CN202110663924.X
申请日:2021-06-16
申请人: 武汉大学
摘要: 本发明公开了一种听觉感知响度空间Lombard效应分类方法,进行Lombard分级录音采集,包括设置各细粒度听觉主观响度级的背景噪声,同步采集各响度级的背景噪声与对应的纯净语音;采用基于空气传播与骨传导的双路自反馈机制,提取说话人感知的发声自反馈;基于各级背景噪声与对应的发声自反馈,采用短时客观可懂度测度指标实现Lombard效应分类。与现有技术相比,本发明结合听觉主观响度级与发声自反馈机制研究Lombard效应的分类模型,可以解决若干固定噪声分贝级语料库Lombard风格界限模糊的问题,支持Lombard语料库的高效采集。
-
公开(公告)号:CN108052924B
公开(公告)日:2020-10-27
申请号:CN201711466898.1
申请日:2017-12-28
申请人: 武汉大学深圳研究院
摘要: 本发明公开了一种空间运动行为语义模式的辨识方法,包括以下步骤:基于空间定位的逗留行为采集和判断;对逗留行为建立数学描述并可视化表达,建立空间行为语义模式图谱;依据空间行为语义模式图谱进行时空频繁模式挖掘。本发明提出的空间行为模式图谱表达机制和度量计算方法为发现空间语义信息提供了基础。由于空间行为模式统计分布上的规律性契合了不同职业人群空间行为的内在表现,通过本方法能够间接地理解出行者的活动目的和行为动机,尤其是与众不同的反常危险行为,揭示行为模式中隐藏的对社会安全防控有价值的隐秘关系,使得基于空间运动大数据异常行为监测的社会安全防范实战应用成为可能。
-
公开(公告)号:CN107650862B
公开(公告)日:2020-09-29
申请号:CN201710802002.6
申请日:2017-09-07
申请人: 武汉大学
摘要: 本发明公开了一种基于智能手机接近感知的汽车无钥匙进入系统,包括:设置在智能手机上的信息请求模块、实时定位引擎模块、信息发送模块;所述信息请求模块用于向云平台请求信息;所述实时定位引擎模块用于实现精确可靠的手机相对车辆的空间定位;车载装置,包括车载iBeacon基站、车载蓝牙通讯模块、信息处理模块、车门控制器模块、发动机控制器模块;信息处理模块用于根据获得的用户相对车辆的空间位置信息的变化来分别对车载控制器进行指令控制;云平台,所述云平台用于预存每辆汽车的车载iBeacon基站的UUID和MAC地址信息,以及每种车型所对应的蓝牙指纹库和阈值信息。本发明通过高可靠性的人车相对定位进行无干预的车辆进入控制与位置服务。
-
公开(公告)号:CN107393554B
公开(公告)日:2020-07-10
申请号:CN201710472024.0
申请日:2017-06-20
申请人: 武汉大学
摘要: 本发明一种声场景分类中融合类间标准差的特征提取方法,包括:步骤1,基于传统方式的特征提取:计算原始音频的频谱图,基于传统滤波器降采样,得到降采样后的特征频谱图P1;步骤2,基于类间标准差的特征提取:计算原始音频的频谱图,基于类间频域标准差滤波器降采样,得到降采样后的类间标准差特征频谱图P2;步骤3,基于类间标准差的特征融合:将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接,作为声场景分类模型的输入。本发明提高声场景分类准确率的方案,克服了现有声场景分别率不高的问题;首创通过类间标准差提取特征,并与其他特征融合,提高系统的识别性能。本发明的系统结构简单,实施便捷。
-
公开(公告)号:CN109036382B
公开(公告)日:2020-06-09
申请号:CN201810930863.7
申请日:2018-08-15
申请人: 武汉大学
摘要: 本发明公开了一种基于KL散度的音频特征提取方法,包括:按类读取训练集中的音频文件,然后转化成对应的功率谱,计算得到训练集中不同声学场景的类间KL散度矩阵,划分KL滤波器的频率群,设计出KL滤波器;将训练集的功率谱通过KL滤波器,提取出基于类间KL散度的频谱特征;将KL频谱特征取对数并归一化后输入到卷积神经网络进行训练得到声学模型;读取测试集的音频文件,然后转化成对应的功率谱,通过KL滤波器提取出测试集对应的KL频谱特征;将测试集的KL频谱特征输入训练好的声学模型进行测试和评估,得到最终的声场景分类模型准确率。本发明应用到其他声场景分类事件中,可得到比传统的基于人耳的Mel特征提取方法更好的性能。
-
-
-
-
-
-
-
-
-