一种面向语音识别的语音增强方法

    公开(公告)号:CN110970044A

    公开(公告)日:2020-04-07

    申请号:CN201911180882.3

    申请日:2019-11-27

    申请人: 武汉大学

    摘要: 本发明公开了一种面向语音识别的语音增强方法,包括:步骤1,利用近端麦克风和远端麦克风录制得到的语音,对干净语音进行估计;步骤2,将步骤1中得到的估计语音作为参考语音信号,计算参考语音和待测降噪语音的包络相关系数,构造和语音识别相关的模型优化目标函数;步骤3,构建语音增强的深度神经网络模型,训练目标为估计语音,模型优化目标函数由步骤2得到;根据优化结果实现语音增强。本发明方法利用估计语音提高语音识别性能,并保证了人耳听觉感知质量,更适用于面向语音识别的语音增强。

    空间运动行为语义模式的辨识方法

    公开(公告)号:CN108052924A

    公开(公告)日:2018-05-18

    申请号:CN201711466898.1

    申请日:2017-12-28

    IPC分类号: G06K9/00 G06Q50/26

    摘要: 本发明公开了一种空间运动行为语义模式的辨识方法,包括以下步骤:基于空间定位的逗留行为采集和判断;对逗留行为建立数学描述并可视化表达,建立空间行为语义模式图谱;依据空间行为语义模式图谱进行时空频繁模式挖掘。本发明提出的空间行为模式图谱表达机制和度量计算方法为发现空间语义信息提供了基础。由于空间行为模式统计分布上的规律性契合了不同职业人群空间行为的内在表现,通过本方法能够间接地理解出行者的活动目的和行为动机,尤其是与众不同的反常危险行为,揭示行为模式中隐藏的对社会安全防控有价值的隐秘关系,使得基于空间运动大数据异常行为监测的社会安全防范实战应用成为可能。

    一种声场景分类中融合类间标准差的特征提取方法

    公开(公告)号:CN107393554A

    公开(公告)日:2017-11-24

    申请号:CN201710472024.0

    申请日:2017-06-20

    申请人: 武汉大学

    摘要: 本发明一种声场景分类中融合类间标准差的特征提取方法,包括:步骤1,基于传统方式的特征提取:计算原始音频的频谱图,基于传统滤波器降采样,得到降采样后的特征频谱图P1;步骤2,基于类间标准差的特征提取:计算原始音频的频谱图,基于类间频域标准差滤波器降采样,得到降采样后的类间标准差特征频谱图P2;步骤3,基于类间标准差的特征融合:将步骤1中的特征频谱图P1和步骤2中的特征频谱图P2进行拼接,作为声场景分类模型的输入。本发明提高声场景分类准确率的方案,克服了现有声场景分别率不高的问题;首创通过类间标准差提取特征,并与其他特征融合,提高系统的识别性能。本发明的系统结构简单,实施便捷。

    一种基于WiFi指纹的室内定位方法

    公开(公告)号:CN103402256B

    公开(公告)日:2016-01-13

    申请号:CN201310291716.7

    申请日:2013-07-11

    申请人: 武汉大学

    IPC分类号: H04W64/00 G01S5/02

    摘要: 本发明公开了一种基于WiFi指纹的室内定位方法,本发明对待定位场所内的每个已知位置点,在一段时间内持续采集WiFi信号的RSSI值,对采集到的数据进行预处理,统计每一个AP在某一位置点的信号序列中出现的次数num,删除num小于序列总长度一半的AP信号数据,对预处理之后的数据求平均值μ、标准差δ存入数据库;采集待定位点的WiFi信号的RSSI值并上传至服务器,对采集到的待定位点的数据采用多层次概率算法与数据库中的值进行匹配,得出概率最大的W个位置估计值进行时间平均以获得待测点的位置估计;与现有技术相比,本发明在保证定位精度的同时提高了系统的可操作性和实用性,能精确定位到3米。

    码激励线性预测语音编码器的分数基音估计方法

    公开(公告)号:CN101030380B

    公开(公告)日:2011-05-11

    申请号:CN200710051713.0

    申请日:2007-03-22

    申请人: 武汉大学

    IPC分类号: G10L19/12

    摘要: 本发明涉及码激励线性预测语音编码器的分数基音估计方法,通过多项式插值直接估计峰值位置获得分数基音估计,分数基音估计值通过以下步骤获取,(1)首先对目标信号进行开环基音估计,计算开环整数基音估计值Top;(2)接着进行开环基音估计,在开环整数基音估计值Top的给定邻域内计算闭环相关序列C(k);(3)如果闭环相关序列C(k)的峰值点Tcl出现在给定邻域的两端,则分数基音估计值Tfr为零值;如果峰值点Tcl出现在给定邻域内,则根据峰值点Tcl及其前一点Tcl-1、后一点Tcl+1的值进行多项式拟合,求得峰值位置Tr,对峰值位置Tr按插值因子D进行线性量化,得到分数基音估计值Tfr,线性量化公式为Tfr=round(Tr*D)。本发明在获得精确分数基音估计值、提高预测增益的前提下,有效降低了运算复杂度和系统开销。

    一种针对回声隐写的隐写分析方法

    公开(公告)号:CN101676992A

    公开(公告)日:2010-03-24

    申请号:CN200810196982.0

    申请日:2008-09-17

    申请人: 武汉大学

    IPC分类号: G10L19/00

    摘要: 本发明提供一种针对回声隐写的隐写分析方法:提取隐写样本音频文件和干净样本音频文件的峰值特征作为支持向量机的特征值,提取待测音频文件的峰值特征输入支持向量机;支持向量机根据特征值生成训练模型,训练待测音频文件的峰值特征,判断待测音频文件是否含有隐写信息;所述提取峰值特征包括短窗截取分析步骤,峰值出现频率分析步骤,峰值特征构造步骤。这种技术方案具有高效性,检测结果正确率高,虚警率和漏检率低;并且能够适用于对多种类型的音频文件测试,性能稳健;实施简便,运行复杂性低,资源开销小。

    一种空间参数立体声编解码方法及其装置

    公开(公告)号:CN100571043C

    公开(公告)日:2009-12-16

    申请号:CN200710053770.2

    申请日:2007-11-06

    申请人: 武汉大学

    IPC分类号: H03M7/30 H04S3/00

    摘要: 本发明公开了空间参数立体声编解码方法及装置:编码端首先将立体声左右声道信号在时域或频域下混,然后下混信号传送到变换编码器产生单声道编码数据,同时提取包含量化误差的下混信号,并根据其短时频谱特性将其变换域划分为连续且不重叠的子带,以子带为单位提取左右声道的空间参数。解码端根据变换编码数据,生成与编码端一致的包含量化误差的下混信号并采用同样的划分方法得到子带划分,然后根据空间参数信息重建立体声左右声道子带信号,反变换输出时域立体声信号。与现有技术相比,本发明没有正反变换带来的附加延时并且可在不传送子带划分信息的条件下实现动态的时频划分,提高了空间参数立体声编解码的实时性和效率。

    基于DCT空间的多路画面混合方法

    公开(公告)号:CN1543222A

    公开(公告)日:2004-11-03

    申请号:CN200310111331.4

    申请日:2003-11-05

    申请人: 武汉大学

    IPC分类号: H04N7/30 H04N1/41 H04N5/14

    摘要: 本发明涉及一种基于DCT空间的多路画面混合的方法,在视频流的语法一级将多路视频流按照混合后的空间位置合并在一起,每路视频流映射成混合后的大画面的相应位置宏块的语法流,混合后的大画面的图像头信息、块组头信息和宏块头信息由参与混合的子路产生。该方法可以提高视频服务器的效率,减少失真,增强视频服务器输出视频流的灵活性。