- 专利标题: 音源定位模型的训练方法、音源对象定位方法及相关装置
-
申请号: CN202411034743.0申请日: 2024-07-31
-
公开(公告)号: CN118675507B公开(公告)日: 2024-10-22
- 发明人: 张笑铭 , 李晋 , 马龙
- 申请人: 腾讯科技(深圳)有限公司
- 申请人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 代理机构: 北京同达信恒知识产权代理有限公司
- 代理商 朱佳
- 主分类号: G10L15/06
- IPC分类号: G10L15/06 ; G10L15/065 ; G10L15/16 ; G10L15/26 ; G10L15/30 ; G10L21/0272 ; G10L25/51
摘要:
本申请涉及数据处理技术领域,尤其涉及一种音源定位模型的训练方法、音源对象定位方法及相关装置,在模型训练过程中,该方法为:以一轮迭代过程为例,针对样本唤醒词包含的各发音单元,分别提取出单元内容向量,并依据多通道样本音频信号,提取出位置预测向量和音频内容向量;再基于各单元内容向量各自与音频内容向量之间的相关性,分别调整位置预测向量,获得各发音单元的音源位置指示向量,并基于各音源位置指示向量,确定音源对象的预测位置;之后,基于预测结果和位置标签的差异,调整模型参数。这样,能够学习到基于多通道样本语音信号和包含的样本唤醒词,对任意候选位置的音源对象进行定位的能力,并能够大幅提高定位的准确率。
公开/授权文献
- CN118675507A 音源定位模型的训练方法、音源对象定位方法及相关装置 公开/授权日:2024-09-20