-
公开(公告)号:CN119559951A
公开(公告)日:2025-03-04
申请号:CN202411756892.8
申请日:2024-12-02
Applicant: 广州航海学院 , 朝阳聚声泰(信丰)科技有限公司 , 南昌航空大学
Abstract: 本发明涉及语音处理技术领域,具体涉及一种基于最大化编码空间的无监督说话人验证方法,涉及说话人验证领域、机器学习领域和域自适应领域,包括将含有源域训练集的说话人语音的音频信号输入CAM++网络监督式预训练得到预训练模型;将预训练模型初始化教师‑学生框架中的教师模型得到初始化的DINO框架;将目标域的说话人语音的音频信号切分成两个不重复的语音片段输入到初始化的DINO框架,教师模型输出得到2个固定维度的说话人嵌入,学生模型得到2个固定维度的说话人嵌入;固定教师模型的参数,损失回传,梯度更新,优化学生模型的参数;训练好的模型提取测试语音的说话人嵌入然后使用余弦相似性分析即可得到说话人分类结果。