发明公开
- 专利标题: 一种基于多中心单分类的自监督语音鉴伪训练方法及系统
-
申请号: CN202311682362.9申请日: 2023-12-08
-
公开(公告)号: CN117612562A公开(公告)日: 2024-02-27
- 发明人: 曹睿 , 沈宜 , 郭先会 , 马军 , 周伟中 , 邹严 , 郭兴文
- 申请人: 深圳市网联安瑞网络科技有限公司 , 中国电子科技集团公司第三十研究所
- 申请人地址: 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)C栋二十二层
- 专利权人: 深圳市网联安瑞网络科技有限公司,中国电子科技集团公司第三十研究所
- 当前专利权人: 深圳市网联安瑞网络科技有限公司,中国电子科技集团公司第三十研究所
- 当前专利权人地址: 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)C栋二十二层
- 代理机构: 广东普润知识产权代理有限公司
- 代理商 刘小兵
- 主分类号: G10L25/51
- IPC分类号: G10L25/51 ; G10L15/06 ; G10L15/02 ; G10L15/16 ; G10L25/30 ; G10L25/03
摘要:
本发明属于语音检测技术领域,公开了一种基于多中心单分类的自监督语音鉴伪训练方法及系统。该方法包括:将处理后的语音数据输入到特征提取模块,使用预训练自监督前端网络提取语音特征;将预训练的自监督前端提取到的语音特征进融合;将融合后的语音特征输入到鉴伪网络中,加入多中心单分类的损失模型,并对多中心单分类的损失模型以及鉴伪网络进行训练优化;利用推理过程使用阈值判断语音的真伪。本发明结合不同特征说话人在嵌入空间上的不同位置,引入多中心的嵌入空间进行训练,解决单中心嵌入空间方法鉴伪导致的错误率高问题,同时添加多种噪音和混响模拟真实环境,有效解决语音鉴伪在真实环境下准确率较低,泛化性差的问题。