-
公开(公告)号:CN119559951A
公开(公告)日:2025-03-04
申请号:CN202411756892.8
申请日:2024-12-02
Applicant: 广州航海学院 , 朝阳聚声泰(信丰)科技有限公司 , 南昌航空大学
Abstract: 本发明涉及语音处理技术领域,具体涉及一种基于最大化编码空间的无监督说话人验证方法,涉及说话人验证领域、机器学习领域和域自适应领域,包括将含有源域训练集的说话人语音的音频信号输入CAM++网络监督式预训练得到预训练模型;将预训练模型初始化教师‑学生框架中的教师模型得到初始化的DINO框架;将目标域的说话人语音的音频信号切分成两个不重复的语音片段输入到初始化的DINO框架,教师模型输出得到2个固定维度的说话人嵌入,学生模型得到2个固定维度的说话人嵌入;固定教师模型的参数,损失回传,梯度更新,优化学生模型的参数;训练好的模型提取测试语音的说话人嵌入然后使用余弦相似性分析即可得到说话人分类结果。
-
公开(公告)号:CN118366461A
公开(公告)日:2024-07-19
申请号:CN202410501998.7
申请日:2024-04-25
Applicant: 广州航海学院 , 朝阳聚声泰(信丰)科技有限公司 , 南昌航空大学
IPC: G10L17/18 , G06F18/22 , G06F18/2431 , G06F18/214 , G06N3/0464 , G10L17/02
Abstract: 本发明涉及语音处理技术领域和图像超分辨率技术领域,具体涉及一种基于纹理和通道特征增强的上下文掩蔽感知的说话人验证方法,涉及说话人验证领域、图像超分辨率分析领域和计算机视觉领域,包括将含有说话人语音的音频信号输入至采集边缘特征的卷积块得到带有加强的边缘特征的说话人信息;将加强边缘特征的说话人信息输入至带残差的二维卷积块得到具有高分辨率时频特征的说话人信息;将含有高分辨率时频特征的说话人信息输入至全局响应归一化层得到通道特征加强的说话人信息;将通道特征加强的说话人信息输入至CAM++骨干网络得到完整的说话人向量;将完整的说话人向量输入至线性分类层然后用余弦相似性分析即可得到说话人分类结果。
-
公开(公告)号:CN117626170A
公开(公告)日:2024-03-01
申请号:CN202311658309.5
申请日:2023-12-06
Applicant: 南昌航空大学
Abstract: 本发明涉及表面防护技术领域,尤其涉及一种改善粉末渗锌的方法。本发明提供了一种改善粉末渗锌的方法,包括以下步骤:将待渗材料依次进行超声滚压强化和渗锌,得到带有渗锌层的材料。所述方法简单易行,成本低,且能很好的提高渗锌速率。
-
-