一种基于不确定度的集成自监督说话人识别方法

Invention Publication

CN116386646A 一种基于不确定度的集成自监督说话人识别方法审中-实审

Please log in to see more content

Patent Title: 一种基于不确定度的集成自监督说话人识别方法
Application No.: CN202310476907.4

Application Date: 2023-04-28
Publication No.: CN116386646A

Publication Date: 2023-07-04
Inventor: 季薇 , 杨茗淇 , 李云
Applicant: 南京邮电大学
Applicant Address: 江苏省南京市鼓楼区新模范马路66号
Assignee: 南京邮电大学
Current Assignee: 南京邮电大学
Current Assignee Address: 江苏省南京市鼓楼区新模范马路66号
Agency: 南京正联知识产权代理有限公司
Agent 王素琴
Main IPC: G10L17/02
IPC: G10L17/02 ; G10L17/04 ; G10L17/18

Abstract:

本发明属于说话人识别技术领域，公开了一种基于不确定度的集成自监督的语音学习方法，应用于说话人识别学习任务，本发明采用大量无标签数据对掩蔽自监督模型、对比自监督模型以及自回归预测自监督模型进行预训练，并将语音数据的梅尔语谱图特征结果分别输入三个自监督模型中，提取模型最后一层的输出，将其作为全连接层的输入，并将全连接层的输出经过ReLU激活函数计算得到各模型下输入语音数据的证据，通过得到的证据以及狄利克雷分布参数，计算出各个自监督模型输出的置信质量和不确定度，使用Dempster规则将三个自监督模型输出的分类决策质量集进行融合，从而得到每个类的最终概率和总体不确定度，输出最终分类结果。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L17/00	讲话者辨认或验证
G10L17/02	.预处理操作，例如：片断选择；模式表示或模拟，例如基于线性判别式分析(LDA)或主要部件；特征选择或提取