一种基于声学特征的无人机身份认证方法

    公开(公告)号:CN118447856A

    公开(公告)日:2024-08-06

    申请号:CN202410665440.2

    申请日:2024-05-27

    申请人: 新疆大学

    摘要: 本发明提供一种基于声学特征的无人机身份认证方法,属于声音事件检测领域。其中,该方法包括:通过数据采集模块从指定的麦克风中收集声音样本,收集到的声音样本按照预定义的时间间隔进行采样和评估;对采集到的声音样本进行数据增强,并将数据增强后的声音数据划分为训练集和测试集;利用特征提取模块从声音样本中提取出能够反映无人机声音特征和行为模式的数字化特征,以形成特征集合;构建基于CNN‑Transformer混合网络的认证模型,并将所述训练集声音特征送入模型中进行训练,得到训练后的认证模型;将所述测试声音特征送入认证模型中进行测试,以对测试集声音样本进行认证,从而实现对无人机的身份认证任务。采用本申请的技术方案,使用一种基于CNN‑Transformer的深度学习结构,能够充分利用从声音中提取的特征,以提高无人机身份认证的准确性和可靠性。该深度学习模型能够有效地识别和分析无人机发出的声音信号,从而实现对无人机身份的精准认证。

    一种时域上同时建模语音和噪声的语音增强方法

    公开(公告)号:CN115273882A

    公开(公告)日:2022-11-01

    申请号:CN202210903363.0

    申请日:2022-07-29

    申请人: 新疆大学

    发明人: 李慧 黄志华

    摘要: 本发明公开了一种在时域上同时建模语音和噪声的方法,所述方法包括以下步骤:步骤1:预处理训练数据,获取时域语音信号序列;步骤2:构建可以同时建模语音和噪声的语音增强模型,设定合理的训练参数,使用训练集训练语音增强模型;步骤3:预处理带噪语音测试集,利用训练好的模型对其去噪后重构,保存增强后的语音;步骤4:使用多种评价指标对增强后语音信号的质量与可懂度进行评估;本发明设计一个具有两个分支的时域语音增强算法,分别预测干净语音和噪声,在两分支中间加入信息交互模块,一定程度上解决了对未知噪声增强效果不确定的问题,可以同时分离语音和噪声,能够有效地实现语音增强。

    基于扩散原型网络的抑郁症音频检测方法

    公开(公告)号:CN118522313A

    公开(公告)日:2024-08-20

    申请号:CN202410728937.4

    申请日:2024-06-06

    申请人: 新疆大学

    发明人: 黄志华 刘含铮

    摘要: 本发明提供一种基于扩散原型网络的抑郁症音频检测方法。其中,该方法包括:首先对包含抑郁症患者与非抑郁患者的音频数据集进行预处理,并且将预处理后的音频数据集进行划分;其次将一维的原始音频信号进行特征提取后获得二维的梅尔谱图,并保存为三维的彩色图像;采用本申请的技术方案,将基于原型网络的元学习方法用于抑郁症音频检测,并对原型表示的生成方式进行改进,即先在普通原型表示的基础上生成特定任务的过拟合原型,再通过扩散过程对过拟合原型进行重建,得到具有表示通用类别信息的扩散原型,可以提高抑郁症检测的准确性。

    一种基于有限咳嗽音数据的疾病检测方法

    公开(公告)号:CN115424638A

    公开(公告)日:2022-12-02

    申请号:CN202211081057.X

    申请日:2022-09-05

    申请人: 新疆大学

    摘要: 本发明公开了一种基于有限咳嗽音数据的疾病检测方法,所述方法包括以下步骤:步骤1:对有限的咳嗽音数据进行预处理,将所有音频数据重采样率为16KHz,对有限的数据集进行数据增广。步骤2:提取特征,使用汉宁窗对语音分帧,窗口大小1024,帧移160,梅尔滤波器组为80mel对音频提取对数梅尔谱图特征。步骤3:使用带有外部注意力机制的双向LSTM结构进行训练,以捕获音频频域中的详细特征。步骤4:利用训练好的模型对测试集数据进行测试,获得COVID‑19疾病的检测结果。本发明将外部注意力机制与双向LSTM结合实现COVID‑19的检测,该方法可以避免不同样本之间的潜在联系被忽略,从而更高效准确的检测COVID‑19。

    一种基于神经网络的语音质量评估方法

    公开(公告)号:CN114360583A

    公开(公告)日:2022-04-15

    申请号:CN202210004522.3

    申请日:2022-01-05

    申请人: 新疆大学

    IPC分类号: G10L25/60 G10L25/30 G06N3/04

    摘要: 本发明公开了一种基于神经网络的语音质量评估方法,所述的方法包括:音频转换模块,用于将音频转换成可以在神经网络模型中处理的格式;加噪模块,用于生成与纯净语音配对的带噪语音;特征提取模块,用于提取输入神经网络的特征;神经网络模块,用于评估输入模型特征所对应的语音质量分数;损失函数,用于神经网络的训练。本发明通过提取语音的时频特征,利用神经网络评估出语音质量分数。在进行语音质量评估时不需要纯净语音作为参考。

    一种基于瓶颈特征和残差网络的语音关键词检索方法

    公开(公告)号:CN114780786B

    公开(公告)日:2024-05-14

    申请号:CN202210390224.2

    申请日:2022-04-14

    申请人: 新疆大学

    摘要: 本发明公开了一种基于瓶颈特征和残差神经网络的语音关键词检索的方法,所述方法包括以下步骤:步骤1:预处理数据:对训练数据预处理,利用预训练前馈网络得到数据集的瓶颈特征,再生成相似矩阵图像;步骤2:模型训练:构建语音关键词检索模型,将处理后的数据和标签输入残差神经网络,完成关键词检索模型的训练;步骤3:模型测试:对测试集进行关键词检索,并给出置信度判断;步骤4:模型评估:采用准确率、召回率和F1评估关键词检索模型性能;本发明将语音关键词检索任务转化为图像二分类任务,从根本上解决了传统低资源语音关键词检索对语料库资源规模要求高的问题,更加简便快捷的实现低资源语音关键词检索。

    一种基于联合感知损失的注意力生成对抗语音增强方法

    公开(公告)号:CN115410589A

    公开(公告)日:2022-11-29

    申请号:CN202211079475.5

    申请日:2022-09-05

    申请人: 新疆大学

    摘要: 本发明公开了一种基于联合感知损失的注意力生成对抗语音增强的方法。所述方法包括以下步骤:步骤1:训练数据预处理:对训练数据进行重采样、分帧加窗,短时傅里叶变换,获取训练数据的幅度谱特征;步骤2:构建模型并训练:构建基于联合感知损失函数的注意力生成对抗语音增强模型,设定合理的训练参数,并对其进行训练;步骤3:测试模型:预处理带噪语音测试集,利用上述训练完成的语音增强模型对其进行去噪与增强,并保存结果,完成语音增强任务。利用本发明,可以在不显著增加模型参数和计算开销的情况下显著提高带噪语音信号的语音质量和可懂度。

    一种基于瓶颈特征和残差网络的语音关键词检索方法

    公开(公告)号:CN114780786A

    公开(公告)日:2022-07-22

    申请号:CN202210390224.2

    申请日:2022-04-14

    申请人: 新疆大学

    摘要: 本发明公开了一种基于瓶颈特征和残差神经网络的语音关键词检索的方法,所述方法包括以下步骤:步骤1:预处理数据:对训练数据预处理,利用预训练前馈网络得到数据集的瓶颈特征,再生成相似矩阵图像;步骤2:模型训练:构建语音关键词检索模型,将处理后的数据和标签输入残差神经网络,完成关键词检索模型的训练;步骤3:模型测试:对测试集进行关键词检索,并给出置信度判断;步骤4:模型评估:采用准确率、召回率和F1评估关键词检索模型性能;本发明将语音关键词检索任务转化为图像二分类任务,从根本上解决了传统低资源语音关键词检索对语料库资源规模要求高的问题,更加简便快捷的实现低资源语音关键词检索。

    一种基于深度压缩感知的语音增强方法

    公开(公告)号:CN113129872B

    公开(公告)日:2023-03-14

    申请号:CN202110367869.X

    申请日:2021-04-06

    申请人: 新疆大学

    摘要: 本发明公开了一种基于深度压缩感知的语音增强方法,所述方法包括以下步骤:步骤1:预处理训练数据,获取时域语音信号序列;步骤2:构建基于深度压缩感知的语音增强模型(SEDCS),并对其进行联合训练;步骤3:预处理带噪语音测试集,利用训练完成的SEDCS模型对其去噪与重构,并保存结果,完成语音增强任务;步骤4:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。本发明将压缩感知结合深度学习实现语音增强,可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,并且以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度,能够更简便灵活地实现语音增强。

    一种基于深度压缩感知的语音增强方法

    公开(公告)号:CN113129872A

    公开(公告)日:2021-07-16

    申请号:CN202110367869.X

    申请日:2021-04-06

    申请人: 新疆大学

    摘要: 本发明公开了一种基于深度压缩感知的语音增强方法,所述方法包括以下步骤:步骤1:预处理训练数据,获取时域语音信号序列;步骤2:构建基于深度压缩感知的语音增强模型(SEDCS),并对其进行联合训练;步骤3:预处理带噪语音测试集,利用训练完成的SEDCS模型对其去噪与重构,并保存结果,完成语音增强任务;步骤4:采用多种评价指标对增强后语音信号的质量与可懂度进行评估。本发明将压缩感知结合深度学习实现语音增强,可摆脱传统压缩感知方法中对语音信号的稀疏性约束,解决传统压缩感知方法重构语音可懂度下降等问题,并且以语音信号的观测信号作为优化对象,有效提升了增强语音效率,降低了模型复杂度,能够更简便灵活地实现语音增强。