基于拾音环境因素采集的音频数据增强方法、装置及介质

    公开(公告)号:CN118737172A

    公开(公告)日:2024-10-01

    申请号:CN202411005494.2

    申请日:2024-07-25

    Applicant: 武汉大学

    Inventor: 任延珍 王绍宇

    Abstract: 本发明公开了一种基于拾音环境因素采集的音频数据增强方法、装置及介质,获取待增强的原始音频数据的样本训练集;对所述样本训练集依次进行分批、验证、标签提取、合并操作;调度拾音器和扬声器在真实环境中对每个样本批次的整条音频数据混合拾音环境因素;对整段录音数据根据所述分批和所述标签提取的相应数据依次进行切分和标记,得到当前样本批次的增强样本训练集;获取每个样本批次的增强样本训练集,拼接得到最终的原始音频数据的增强样本训练集。优点:本发明同时考虑到了环境背景噪声,拾音器与声源之间的距离和拾音器内部产生的干扰等环境因素,更能有效引入环境信息,进而提高声音事件检测模型在真实环境中的准确率,减少性能下降。

    基于F-ratio自适应掩蔽的声纹识别系统对抗防御方法及系统

    公开(公告)号:CN117219085A

    公开(公告)日:2023-12-12

    申请号:CN202311208362.5

    申请日:2023-09-18

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于F‑ratio自适应掩蔽的声纹识别系统对抗防御方法,本发明首先对输入语音进行特征提取,获得幅度谱图;对幅度谱图进行去噪得到去噪幅度谱图;使用F‑ratio统计去噪幅度谱图中用以区分说话人的高相关频带集合和低相关频带集合;然后分别计算高说话人相关频带和低说话人相关频带的掩蔽阈值;对幅度谱图进行遮掩得到重构幅度谱图;将重构幅度谱图利用librosa.griffinlim变换,得到对应波形信号作为重构语音;最后使用批量干净样本进行语音重构,使用重构语音进行SRS微调训练,以保证SRS的分类性能。本发明均表现出明显的防御性优势,平均防御能力展现出本方案对于不同攻击的防御通用性,此外,因为本发明不涉及额外的数据和训练,所以本方案具备低成本的性质。

    一种基于光照特征的深度伪造人脸鉴别方法

    公开(公告)号:CN112069891B

    公开(公告)日:2023-08-18

    申请号:CN202010766667.8

    申请日:2020-08-03

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于光照特征的深度伪造人脸鉴别方法。首先,利用人脸检测提取出视频关键帧中的人脸,裁剪出人脸部分图像和环境部分图像;然后,利用本征图像分解提取视频帧中人脸部分和环境部分的光照特征,使用SfSnet导出帧中人脸部分图像的照射图,使用U‑net导出帧中环境部分图像的照射图;其次,利用两部分照射图衡量一帧图像中人脸和环境光照信息的相似性;最后,将光照信息的相似性输入支持向量机,对伪造视频和真实视频进行分类,输出鉴别结果。本发明利用视频本身光照特征的一致性,而不需要与参考视频进行对比检测,因而具有较强的鲁棒性和对未知检测目标的泛化能力。

    基于注意力机制的声音事件样本混合方法及装置

    公开(公告)号:CN116013361A

    公开(公告)日:2023-04-25

    申请号:CN202211573883.6

    申请日:2022-12-08

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于注意力机制的声音事件样本混合方法及装置,在音频分类任务上,样本混合是一种有效的数据增强方法。原有的样本混合方案直接混合两个随机样本的波形,这不仅忽略了声音事件的时间分布,而且还可能干扰另一个样本中的原始声音事件。本文提出了基于注意力机制的样本混合方案,它只选择那些含有声音事件的片段进行混合,而不是简单地混合整个样本。该方案利用预先训练好的音频分类模型的注意力图,过滤出频谱图上对分类有用的部分,然后选择区域进行混合。该方案能够显著提升音频分类的准确率(+1.9mAP),尤其能够将短事件(0.1s至2s)的分类准确率平均提高6.8%,同时保持对长事件的分类准确率。

    一种基于脉冲分布模型的AMR固定码本安全隐写方法

    公开(公告)号:CN110111799B

    公开(公告)日:2021-02-19

    申请号:CN201910347984.3

    申请日:2019-04-28

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于脉冲分布模型的AMR固定码本安全隐写方法,本发明分析cover音频中脉冲分布特性,结合AMR固定码本编码原理,在嵌入时对秘密信息进行预处理,将嵌入信息分为原始秘密信息和标记信息。根据使脉冲分布特性改变最小的原则设计相应的嵌入规则,使同一轨道上脉冲位置相同的概率不变,同时分布较为随机,从而使隐写后的音频在脉冲分布上与原始音频接近。本发明的优势在于隐蔽性好且抗隐写分析能力强。

    一种双通道俯角人脸融合校正GAN网络及人脸融合校正方法

    公开(公告)号:CN111291669A

    公开(公告)日:2020-06-16

    申请号:CN202010075862.6

    申请日:2020-01-22

    Applicant: 武汉大学

    Abstract: 本发明公开了一种双通道俯角人脸融合校正GAN网络及人脸融合校正方法,本发明的GAN网络利用低分辨率正脸的全局结构和高分辨率俯角脸的局部纹理重建清晰的正面人脸,提高人脸识别系统的精度。建立的GAN网络包括超分辨率重建网络、姿态校正网络、头部姿态估计模块、人脸配准模块、人脸综合模块等主要功能模块。首先通过超分辨率重建网络将低分辨率正脸提升到高分辨率俯角脸同等分辨率,接着通过姿态校正网络完成高分辨率人脸的俯视姿态校正,然后使用光流配准方法实现二者的像素级对齐,最后将估计出的头部俯视角转换为融合权重,进行角度自适应的人脸合成。本发明能够精确地重建清晰的正面人脸,为监控视频人脸识别提供了新的思路。

    一种基于最小失真代价的SILK基音域自适应隐写方法

    公开(公告)号:CN110085242A

    公开(公告)日:2019-08-02

    申请号:CN201910347884.0

    申请日:2019-04-28

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于最小失真代价的SILK基音域自适应隐写方法,本方法基于SILK语音编码压缩参数中基音周期的预测不准确特性,提出基音周期参数域的隐写算法;基于STC自适应隐写编码框架,以统计安全性和听觉隐蔽性为目标,设计了基于基音周期编码参数与统计分布特性的失真函数,实现了基于最小失真代价的SILK基音域自适应隐写算法。本方法的优势在于首次实现了SILK语音编码载体上的隐写技术,有着良好的隐蔽性和安全性。

    一种基于C-MAC特征的AACHuffman域隐写分析方法

    公开(公告)号:CN105575401B

    公开(公告)日:2019-03-19

    申请号:CN201510979472.0

    申请日:2015-12-23

    Applicant: 武汉大学

    Abstract: 本发明公开了一种基于C‑MAC特征的AACHuffman域隐写分析方法,针对AAC音频Huffman域的两种修改比例因子带码书的隐写算法,提出基于重压缩校准的相邻比例因子带码书间转移概率的AAC隐写分析特征,采用支持向量机进行分类预测,实现了面向AAC Huffman域的隐写分析方法。本发明的优势在于:目前还未出现针对AAC Huffman域的隐写分析方法,针对已有的面向AAC Huffman域的两种隐写方法,在相对嵌入率为50%时,检测率能达到95%以上。

    一种基于C-MAC特征的AACHuffman域隐写分析方法

    公开(公告)号:CN105575401A

    公开(公告)日:2016-05-11

    申请号:CN201510979472.0

    申请日:2015-12-23

    Applicant: 武汉大学

    CPC classification number: G10L25/27 G10L19/018

    Abstract: 本发明公开了一种基于C-MAC特征的AACHuffman域隐写分析方法,针对AAC音频Huffman域的两种修改比例因子带码书的隐写算法,提出基于重压缩校准的相邻比例因子带码书间转移概率的AAC隐写分析特征,采用支持向量机进行分类预测,实现了面向AAC Huffman域的隐写分析方法。本发明的优势在于:目前还未出现针对AAC Huffman域的隐写分析方法,针对已有的面向AAC Huffman域的两种隐写方法,在相对嵌入率为50%时,检测率能达到95%以上。

Patent Agency Ranking