一种基于不确定度的集成自监督说话人识别方法
摘要:
本发明属于说话人识别技术领域,公开了一种基于不确定度的集成自监督的语音学习方法,应用于说话人识别学习任务,本发明采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练,并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中,提取模型最后一层的输出,将其作为全连接层的输入,并将全连接层的输出经过ReLU激活函数计算得到各模型下输入语音数据的证据,通过得到的证据以及狄利克雷分布参数,计算出各个自监督模型输出的置信质量和不确定度,使用Dempster规则将三个自监督模型输出的分类决策质量集进行融合,从而得到每个类的最终概率和总体不确定度,输出最终分类结果。
0/0