-
公开(公告)号:CN111048097B
公开(公告)日:2022-11-29
申请号:CN201911318077.2
申请日:2019-12-19
申请人: 中国人民解放军空军研究院通信与导航研究所 , 西北工业大学
摘要: 本发明公开了一种用于声纹识别的基于3D卷积的孪生网络,包括:特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征。Sia‑Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试音频数据的说话人身份。使用该网络进行声纹识别,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
-
公开(公告)号:CN111048097A
公开(公告)日:2020-04-21
申请号:CN201911318077.2
申请日:2019-12-19
申请人: 中国人民解放军空军研究院通信与导航研究所 , 西北工业大学
摘要: 本发明公开了一种用于声纹识别的基于3D卷积的孪生网络,包括:特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征。Sia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离。CNN网络:用于建立每一个说话人的模型库。预测单元:用于测试音频数据的说话人身份。使用该网络进行声纹识别,既可以对语音信息进行充分的监督学习,还可以兼顾语音信息的时域信息,进一步提高了声纹识别的正确率。
-