音源定位模型的训练方法、音源对象定位方法及相关装置

发明授权

CN118675507B 音源定位模型的训练方法、音源对象定位方法及相关装置有权

请登陆查看更多内容

专利标题： 音源定位模型的训练方法、音源对象定位方法及相关装置
申请号： CN202411034743.0

申请日： 2024-07-31
公开(公告)号： CN118675507B

公开(公告)日： 2024-10-22
发明人: 张笑铭 , 李晋 , 马龙
申请人： 腾讯科技(深圳)有限公司
申请人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
专利权人： 腾讯科技(深圳)有限公司
当前专利权人： 腾讯科技(深圳)有限公司
当前专利权人地址： 广东省深圳市南山区高新区科技中一路腾讯大厦35层
代理机构： 北京同达信恒知识产权代理有限公司
代理商 朱佳
主分类号： G10L15/06
IPC分类号： G10L15/06 ; G10L15/065 ; G10L15/16 ; G10L15/26 ; G10L15/30 ; G10L21/0272 ; G10L25/51

摘要：

本申请涉及数据处理技术领域，尤其涉及一种音源定位模型的训练方法、音源对象定位方法及相关装置，在模型训练过程中，该方法为：以一轮迭代过程为例，针对样本唤醒词包含的各发音单元，分别提取出单元内容向量，并依据多通道样本音频信号，提取出位置预测向量和音频内容向量；再基于各单元内容向量各自与音频内容向量之间的相关性，分别调整位置预测向量，获得各发音单元的音源位置指示向量，并基于各音源位置指示向量，确定音源对象的预测位置；之后，基于预测结果和位置标签的差异，调整模型参数。这样，能够学习到基于多通道样本语音信号和包含的样本唤醒词，对任意候选位置的音源对象进行定位的能力，并能够大幅提高定位的准确率。

公开/授权文献

CN118675507A 音源定位模型的训练方法、音源对象定位方法及相关装置公开/授权日：2024-09-20

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L15/00	语音识别（G10L17/00优先）
G10L15/06	.创建基准模板；训练语音识别系统，例如对说话者声音特征的适应（G10L15/14优先）