-
公开(公告)号:CN117672264A
公开(公告)日:2024-03-08
申请号:CN202311535961.8
申请日:2023-11-17
Applicant: 武汉大学
IPC: G10L25/51 , G06F18/213 , G06F40/30 , G06F18/22 , G06F18/2415 , G10L25/27
Abstract: 本发明提供基于语义相似度对齐的声音事件检测方法、系统及存储介质,能够将one‑hot标签无法表示的语义关联注入模型,提升模型的识别和检测性能。方法包括:步骤1,构建数据集中的各标签的文本描述;对于有标签声音事件数据集中的每个音频,均按照Desc或Concat方式构建声音事件类别的文本描述;步骤2,使用两个预训练的编码器和投影层来连接音频片段和文本描述,提取音频和文本特征,并分别通过两个独立的线性投影层,将音频和文本特征投影到同一个特征空间;步骤3,计算损失、训练模型,模型整体优化目标是最小化分类损失,同时最大化投影音频特征与相应投影文本特征之间的平均余弦相似度;用训练好的模型进行检测。
-
公开(公告)号:CN112037759B
公开(公告)日:2022-08-30
申请号:CN202010686375.3
申请日:2020-07-16
Applicant: 武汉大学
IPC: G10L13/08 , G10L13/033 , G10L25/69
Abstract: 本发明提供一种抗噪感知敏感度曲线建立及语音合成方法,包括使用带通滤波,将噪声按人耳感知的临界频带划分,得到若干临界频带噪声;针对每个临界频带噪声,按不同的噪声分贝级,录制对应的抗噪语音序列;基于SII客观测试指标确定感知阈值,对每个临界频带做噪声分贝级感知测试,得到更新后的临界分贝;根据更新后的临界分贝生成抗噪感知敏感度曲线;从抗噪感知敏感度曲线获取临界分贝值,选取不同临界分贝值的抗噪语音,训练抗噪语音特征映射模型,利用映射后的抗噪语音特征进行语音合成。本发明方法利用人们在噪声环境下的听觉特性,提出了一种抗噪感知敏感度曲线建立及语音合成方法,更有利于抗噪语音转换的实际应用场景。
-
公开(公告)号:CN111797707B
公开(公告)日:2022-03-15
申请号:CN202010534738.1
申请日:2020-06-12
Applicant: 武汉大学
IPC: G06V20/40 , G06V10/762 , G06T5/40 , G06T7/90
Abstract: 本发明公开了一种基于聚类的镜头关键帧提取方法,首先针对视频,提取视频帧的HSV颜色直方图作为特征向量;接着对HSV颜色直方图进行聚类,动态生成若干个簇,每个簇中包含镜头的若干个视频帧;然后对规模较小的簇进行合并,某个簇的大小小于预设值,则将该簇合并到其他簇中;最后根据颜色直方图距离或者图像熵选取关键帧。本方法能根据镜头内容的复杂程度自动确定镜头内关键帧的数量,因而选取的关键帧能准确代表镜头内容,且没有冗余。
-
公开(公告)号:CN113870888A
公开(公告)日:2021-12-31
申请号:CN202111119961.0
申请日:2021-09-24
Applicant: 武汉大学
IPC: G10L21/0224 , G10L21/0232 , G10L25/30
Abstract: 本发明提供了一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置,其中的方法包括:首先将语音信号经过短时傅里叶变换得到时频域特征,然后利用多层卷积神经网络得到中间映射特征,之后基于时域注意力模块得到时间权值向量,并将其扩展到与中间映射特征相同的维度后做哈达玛乘积,得到经过时域加权的映射特征,然后利用频域注意力模块得到频率权值向量,并将其扩展到与经过时间加权的映射特征相同的维度后做哈达玛乘积,得到最终的经过时域和频域加权的映射特征。本发明的时域和频域注意力模块可以很容易地嵌入到基于卷积神经网络的声学回声消除模型中,使模型自适应学习时频域特征的权重,以此提升模型性能的效果。
-
公开(公告)号:CN110166927A
公开(公告)日:2019-08-23
申请号:CN201910392966.7
申请日:2019-05-13
Applicant: 武汉大学
Abstract: 本发明提供了一种基于定位修正的虚拟声像重建方法,其中的方法包括:首先确定扬声器的方位和目标重建声像方位,然后基于矢量的幅度平移方法分配扬声器增益,进一步合成双耳信号并提取耳间线索,接着基于虚拟声像估计模型估计虚拟声像的方位,估计方位与目标方位对比,采用二分法调整扬声器的增益值,进而使估计方位与目标方位的偏差小于最小可听角,输出调整后的扬声器增益,以此来修正基于矢量的幅度平移方法。本发明实现了基于矢量的幅度平移重建的声像方位与目标方位一致的效果。
-
公开(公告)号:CN105654957B
公开(公告)日:2019-05-24
申请号:CN201510992687.6
申请日:2015-12-24
Applicant: 武汉大学
IPC: G10L19/008 , G10L19/04 , G10L19/26
Abstract: 本发明提供了一种联合声道间和声道内预测的立体声误码隐藏方法及系统,包括:S1利用上一帧两声道数据生成第一维纳滤波器,基于相邻帧的声道间数据关系相似原理,采用第一维纳滤波器和当前帧第一声道数据预测出当前帧第二声道数据S1(n);S2利用上一帧第二声道数据及上一帧第二声道的相似帧生成第二维纳滤波器,采用第二维纳滤波器和当前帧第二声道的相似帧预测出当前帧第二声道数据S2(n);S3采用S1(n)和S2(n)重构当前帧第二声道数据。本发明联合声道间预测数据和声道内数据共同对误码数据进行恢复,充分考虑到了声道间和声道内的数据的共同作用,从而可进一步提高解码音频的质量。
-
公开(公告)号:CN105070293B
公开(公告)日:2018-08-21
申请号:CN201510549716.1
申请日:2015-08-31
Applicant: 武汉大学
IPC: G10L19/032 , G10L19/038
Abstract: 本发明公开了一种基于深度神经网络的音频带宽扩展编码解码方法,装置包括编码单元与解码单元。编码单元包络预处理模块、高频参数提取模块、低频编码模块、码流生成模块;解码单元包括码流输入模块、高频参数解码模块、低频信号解码模块、自编码器参数预测模块、深度神经网络精细结构预测模块、高频信号重构模块、信号合成模块。本发明首先利用信号低频部分与高频部分存在的自相关性,使用深度神经网络预测的方法,预测高频部分的精细结构。再将精细结构与编码端得到高频部分的边信息相结合,重构出信号的高频部分。最后将信号高频部分与低频部分融合,得到最终的恢复信号。本发明相比传统方法在码率上大幅降低,且音质与传统方法相当。
-
公开(公告)号:CN104269173B
公开(公告)日:2018-03-13
申请号:CN201410524839.5
申请日:2014-09-30
Applicant: 武汉大学深圳研究院
Abstract: 本发明涉及一种切换模式的音频带宽扩展编解码装置与方法,将输入的带宽信号进行语音信号、音频信号的分类并根据分类进行变换域带宽扩展编码或线性预测带宽扩展编码的选择,对高频信号或低频信号进行编码;根据不同的编码方式选择解码方式,合成高频信号。本发明综合考虑了语音和音频信号的类型差异,针对不同信号采用不同的带宽扩展策略。与AVS‑P10编码器相比,主观听力MOS分略有提升,客观质量信噪比提升明显。
-
公开(公告)号:CN104269176B
公开(公告)日:2017-11-24
申请号:CN201410524836.1
申请日:2014-09-30
Applicant: 武汉大学深圳研究院
IPC: G10L19/032
Abstract: 本发明涉及一种ISF系数矢量量化方法与装置,将训练好的多区域码表中的ISF系数转化为LPC系数,分别获取区域索引Choosen_cluster(i)、第一级矢量量化VQ的索引VQ(j)和第二级分裂矢量量化SVQ的索引SVQ[5]对待量化的ISF[16]系数进行量化,得到量化后的ISF_q[16],进一步得到当前帧量化后的LPC_q[16],将原始的LPC[16]系数通过功率谱计算公式得到对应的功率谱pf[128];将得到的当前帧量化后的LPC_q[16]系数和原始LPC[16]系数对应的功率谱pf[128]计算出当前区域对应的谱失真SD,并与上一个区域的谱失真进行比较,获取最小的谱失真SD,将最小谱失真对应的区域索引Choosen_cluster(i)和第一级矢量量化后的索引VQ(j)以及第二级分裂矢量量化后的索引SVQ[5]输出,完成ISF系数矢量量化。本发明仅使用42bit量化16阶ISF系数,相比AMR‑WB+的46bit,少了4bit。
-
公开(公告)号:CN105120406B
公开(公告)日:2017-03-01
申请号:CN201510397336.0
申请日:2015-07-07
Applicant: 武汉大学
IPC: H04R5/04
Abstract: 一种三维音频精简方法及系统,包括采集原始三维多声道音频系统中L个扬声器的空间位置信息和人头特征的空间位置信息,将L个扬声器的输入时域信号变换得到对应的频域信号;计算L个扬声器所播放的声音信号在左耳、右耳、人头中心处的声压和;从当前的待精简扬声器集合中,寻找一个使原始声场失真最小的扬声器将其精简剔除;对新的当前待精简扬声器集合继续进行精简,直到得到M通道系统的扬声器最优空间位置排布;将M通道系统的对应扬声器上的频域信号经过傅立叶逆变换转换为时域信号。该技术方案能够利用较少的扬声器重建人头区域的3D空间声场,使其应用于家庭等环境。
-
-
-
-
-
-
-
-
-