大规模自组织麦克风阵列下帧级多通道的说话人确认方法

    公开(公告)号:CN114495949A

    公开(公告)日:2022-05-13

    申请号:CN202111576469.6

    申请日:2021-12-22

    Abstract: 本发明公开了一种大规模自组织麦克风阵列下帧级多通道的说话人确认方法,在单通道说话人确认系统的池化层之前加入时空处理块,分别建模通道内、通道间以及跨时间的上下文关系,进一步提升远场ASV的性能。包括如下步骤:1)在池化层之前加入由跨帧处理层(Cross‑Frame Processing Layer,CFL)和跨通道处理层(Cross‑Channel Processing Layer,CCL)组成的时空处理块;2)为了使噪声通道的通道权重为零,将跨通道处理层的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线33%的等错误率(EER);在Libri‑adhoc40数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线27%的等错误率,同时也实现了低于话语级跨通道自注意力ASV系统9%的等错误率,达到了优越的性能。

    自组织麦克风阵列下基于注意力的多通道说话人确认方法

    公开(公告)号:CN113643710A

    公开(公告)日:2021-11-12

    申请号:CN202110843196.0

    申请日:2021-07-26

    Abstract: 本发明公开了一种自组织麦克风阵列下基于注意力的多通道说话人确认方法,在单通道自动说话人确认系统的基础上,加入通道间处理模块,使其在自组织麦克风阵列下进行远场声纹确认。包括如下步骤:1)在单通道ASV系统的池化层之后加入了基于残差自注意力的通道间处理层和全局融合层以充分利用多通道信息进行说话人识别:通道间处理层旨在学习通道权重,全局融合层融合所有通道的信息;2)为了使噪声通道的通道权重为零,将残差自注意模块中的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明,Sparsemax的多通道ASV系统实现了低于oracle one‑best基线20%多的等错误率;在Libri‑adhoc40数据集上的结果表明,Sparsemax的多通道ASV系统实现了低于oracle one‑best基线30%多的EER,实现了优越的性能。

    一种基于残差高斯自注意力的Transformer端到端语音识别方法

    公开(公告)号:CN113241075A

    公开(公告)日:2021-08-10

    申请号:CN202110488262.7

    申请日:2021-05-06

    Abstract: 本发明公开了一种基于残差高斯自注意力的Transformer端到端语音识别方法,属于基于注意力机制的编码器解码器模型,相比于已有的方法,能够动态自适应调整自注意力的窗长,提高灵活性的同时,提升模型性能。本发明内容如下:通过一个前馈神经网络(FNN,Feedforward Neural Network)学习高斯函数的均值和方差,使得模型可以根据输入帧长动态自适应调整自注意力的窗口长度,来进一步降低字符错误率(CER,Character Error Rate),并通过残差连接提高模型的收敛速度。在国际标准化组织评测数据AISHELL‑1的测试集上,resGSA‑Transformer的CER为5.86%,相对SA‑Transformer降低7.8%,并且参数和计算复杂度与SA‑Transformer大致相同。

    一种模型生成方法、声纹识别方法及对应装置

    公开(公告)号:CN110853654A

    公开(公告)日:2020-02-28

    申请号:CN201911123580.2

    申请日:2019-11-17

    Abstract: 本申请提供一种模型生成方法、声纹识别方法及对应装置,在训练阶段利用学习类中心的训练样本对构造方法,通过给训练集中每个说话人一个预设类中心向量,与神经网络的输出向量组成样本对,根据最大化ROC曲线下的部分面积构造的损失函数来计算的损失,根据得到的损失来训练神经网络模型的参数和预设类中心向量,获得提取声纹特征的神经网络模型,提供了一种新的确认损失函数,并为该确认损失函数提供了一种新的训练样本对构造方法,由于该确认损失函数是在最大化ROC曲线下指定的面积,因此针对不同应用场景下的声纹识别系统训练特定的模型,学习类中心的训练样本对构造方法,解决了传统随机采样训练样本对构造方法中存在的训练不稳定问题。

    一种模型生成方法、声纹识别方法及对应装置

    公开(公告)号:CN110853654B

    公开(公告)日:2021-12-21

    申请号:CN201911123580.2

    申请日:2019-11-17

    Abstract: 本申请提供一种模型生成方法、声纹识别方法及对应装置,在训练阶段利用学习类中心的训练样本对构造方法,通过给训练集中每个说话人一个预设类中心向量,与神经网络的输出向量组成样本对,根据最大化ROC曲线下的部分面积构造的损失函数来计算的损失,根据得到的损失来训练神经网络模型的参数和预设类中心向量,获得提取声纹特征的神经网络模型,提供了一种新的确认损失函数,并为该确认损失函数提供了一种新的训练样本对构造方法,由于该确认损失函数是在最大化ROC曲线下指定的面积,因此针对不同应用场景下的声纹识别系统训练特定的模型,学习类中心的训练样本对构造方法,解决了传统随机采样训练样本对构造方法中存在的训练不稳定问题。

    用于机器人的舵机
    7.
    外观设计

    公开(公告)号:CN305022367S

    公开(公告)日:2019-02-01

    申请号:CN201830069457.7

    申请日:2018-02-13

    Abstract: 1.本外观设计产品的名称:用于机器人的舵机。
    2.本外观设计产品的用途:本外观设计产品用于为机器人运动提供动力。
    3.本外观设计产品的设计要点:主要是产品形状。
    4.最能表明本外观设计设计要点的图片或照片:立体图。

Patent Agency Ranking