发明公开
- 专利标题: 一种基于不确定度的集成自监督说话人识别方法
-
申请号: CN202310476907.4申请日: 2023-04-28
-
公开(公告)号: CN116386646A公开(公告)日: 2023-07-04
- 发明人: 季薇 , 杨茗淇 , 李云
- 申请人: 南京邮电大学
- 申请人地址: 江苏省南京市鼓楼区新模范马路66号
- 专利权人: 南京邮电大学
- 当前专利权人: 南京邮电大学
- 当前专利权人地址: 江苏省南京市鼓楼区新模范马路66号
- 代理机构: 南京正联知识产权代理有限公司
- 代理商 王素琴
- 主分类号: G10L17/02
- IPC分类号: G10L17/02 ; G10L17/04 ; G10L17/18
摘要:
本发明属于说话人识别技术领域,公开了一种基于不确定度的集成自监督的语音学习方法,应用于说话人识别学习任务,本发明采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练,并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中,提取模型最后一层的输出,将其作为全连接层的输入,并将全连接层的输出经过ReLU激活函数计算得到各模型下输入语音数据的证据,通过得到的证据以及狄利克雷分布参数,计算出各个自监督模型输出的置信质量和不确定度,使用Dempster规则将三个自监督模型输出的分类决策质量集进行融合,从而得到每个类的最终概率和总体不确定度,输出最终分类结果。