-
公开(公告)号:CN114495949A
公开(公告)日:2022-05-13
申请号:CN202111576469.6
申请日:2021-12-22
Applicant: 西北工业大学 , 西北工业大学深圳研究院
IPC: G10L17/06 , G10L15/183 , G10L17/22 , H04R19/04
Abstract: 本发明公开了一种大规模自组织麦克风阵列下帧级多通道的说话人确认方法,在单通道说话人确认系统的池化层之前加入时空处理块,分别建模通道内、通道间以及跨时间的上下文关系,进一步提升远场ASV的性能。包括如下步骤:1)在池化层之前加入由跨帧处理层(Cross‑Frame Processing Layer,CFL)和跨通道处理层(Cross‑Channel Processing Layer,CCL)组成的时空处理块;2)为了使噪声通道的通道权重为零,将跨通道处理层的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线33%的等错误率(EER);在Libri‑adhoc40数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线27%的等错误率,同时也实现了低于话语级跨通道自注意力ASV系统9%的等错误率,达到了优越的性能。
-
公开(公告)号:CN113643710A
公开(公告)日:2021-11-12
申请号:CN202110843196.0
申请日:2021-07-26
Applicant: 西北工业大学 , 西北工业大学深圳研究院
Abstract: 本发明公开了一种自组织麦克风阵列下基于注意力的多通道说话人确认方法,在单通道自动说话人确认系统的基础上,加入通道间处理模块,使其在自组织麦克风阵列下进行远场声纹确认。包括如下步骤:1)在单通道ASV系统的池化层之后加入了基于残差自注意力的通道间处理层和全局融合层以充分利用多通道信息进行说话人识别:通道间处理层旨在学习通道权重,全局融合层融合所有通道的信息;2)为了使噪声通道的通道权重为零,将残差自注意模块中的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明,Sparsemax的多通道ASV系统实现了低于oracle one‑best基线20%多的等错误率;在Libri‑adhoc40数据集上的结果表明,Sparsemax的多通道ASV系统实现了低于oracle one‑best基线30%多的EER,实现了优越的性能。
-
公开(公告)号:CN113241075A
公开(公告)日:2021-08-10
申请号:CN202110488262.7
申请日:2021-05-06
Applicant: 西北工业大学 , 西北工业大学深圳研究院
Abstract: 本发明公开了一种基于残差高斯自注意力的Transformer端到端语音识别方法,属于基于注意力机制的编码器解码器模型,相比于已有的方法,能够动态自适应调整自注意力的窗长,提高灵活性的同时,提升模型性能。本发明内容如下:通过一个前馈神经网络(FNN,Feedforward Neural Network)学习高斯函数的均值和方差,使得模型可以根据输入帧长动态自适应调整自注意力的窗口长度,来进一步降低字符错误率(CER,Character Error Rate),并通过残差连接提高模型的收敛速度。在国际标准化组织评测数据AISHELL‑1的测试集上,resGSA‑Transformer的CER为5.86%,相对SA‑Transformer降低7.8%,并且参数和计算复杂度与SA‑Transformer大致相同。
-
公开(公告)号:CN110853654A
公开(公告)日:2020-02-28
申请号:CN201911123580.2
申请日:2019-11-17
Applicant: 西北工业大学
Abstract: 本申请提供一种模型生成方法、声纹识别方法及对应装置,在训练阶段利用学习类中心的训练样本对构造方法,通过给训练集中每个说话人一个预设类中心向量,与神经网络的输出向量组成样本对,根据最大化ROC曲线下的部分面积构造的损失函数来计算的损失,根据得到的损失来训练神经网络模型的参数和预设类中心向量,获得提取声纹特征的神经网络模型,提供了一种新的确认损失函数,并为该确认损失函数提供了一种新的训练样本对构造方法,由于该确认损失函数是在最大化ROC曲线下指定的面积,因此针对不同应用场景下的声纹识别系统训练特定的模型,学习类中心的训练样本对构造方法,解决了传统随机采样训练样本对构造方法中存在的训练不稳定问题。
-
公开(公告)号:CN110853654B
公开(公告)日:2021-12-21
申请号:CN201911123580.2
申请日:2019-11-17
Applicant: 西北工业大学
Abstract: 本申请提供一种模型生成方法、声纹识别方法及对应装置,在训练阶段利用学习类中心的训练样本对构造方法,通过给训练集中每个说话人一个预设类中心向量,与神经网络的输出向量组成样本对,根据最大化ROC曲线下的部分面积构造的损失函数来计算的损失,根据得到的损失来训练神经网络模型的参数和预设类中心向量,获得提取声纹特征的神经网络模型,提供了一种新的确认损失函数,并为该确认损失函数提供了一种新的训练样本对构造方法,由于该确认损失函数是在最大化ROC曲线下指定的面积,因此针对不同应用场景下的声纹识别系统训练特定的模型,学习类中心的训练样本对构造方法,解决了传统随机采样训练样本对构造方法中存在的训练不稳定问题。
-
公开(公告)号:CN108749948A
公开(公告)日:2018-11-06
申请号:CN201810377961.2
申请日:2018-04-25
Applicant: 西北工业大学
CPC classification number: B62D57/032 , B25J9/161 , H04N5/33 , H04N7/18 , H04W4/30 , H04W4/90 , H04W84/18
Abstract: 本发明提供了一种基于ZigBee网络的六足搜救机器人,涉及机器人技术领域,电池放置于壳体底部,壳体的顶部放置PCB板、ZigBee通信模块、摄像头和云台,壳体边缘连接有6个腿部单元,机器人进行搜救时,可调节机器人摄像头方位,进行视频采集。本发明结构原理简单,只需要12个舵机即可实现六足机器人的步态,只有12个自由度,与以往18自由度6足相比大幅度简化,以实现搜救机器人之间的通信以及机器人与主机之间的通信,建立搜救网络,增加搜救效率。
-
-
-
-
-
-