一种基于多中心单分类的自监督语音鉴伪训练方法及系统

发明公开

CN117612562A 一种基于多中心单分类的自监督语音鉴伪训练方法及系统审中-实审

请登陆查看更多内容

专利标题： 一种基于多中心单分类的自监督语音鉴伪训练方法及系统
申请号： CN202311682362.9

申请日： 2023-12-08
公开(公告)号： CN117612562A

公开(公告)日： 2024-02-27
发明人: 曹睿 , 沈宜 , 郭先会 , 马军 , 周伟中 , 邹严 , 郭兴文
申请人： 深圳市网联安瑞网络科技有限公司 , 中国电子科技集团公司第三十研究所
申请人地址： 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)C栋二十二层
专利权人： 深圳市网联安瑞网络科技有限公司,中国电子科技集团公司第三十研究所
当前专利权人： 深圳市网联安瑞网络科技有限公司,中国电子科技集团公司第三十研究所
当前专利权人地址： 广东省深圳市福田区华富街道新田社区深南大道1006号深圳国际创新中心(福田科技广场)C栋二十二层
代理机构： 广东普润知识产权代理有限公司
代理商 刘小兵
主分类号： G10L25/51
IPC分类号： G10L25/51 ; G10L15/06 ; G10L15/02 ; G10L15/16 ; G10L25/30 ; G10L25/03

摘要：

本发明属于语音检测技术领域，公开了一种基于多中心单分类的自监督语音鉴伪训练方法及系统。该方法包括：将处理后的语音数据输入到特征提取模块，使用预训练自监督前端网络提取语音特征；将预训练的自监督前端提取到的语音特征进融合；将融合后的语音特征输入到鉴伪网络中，加入多中心单分类的损失模型，并对多中心单分类的损失模型以及鉴伪网络进行训练优化；利用推理过程使用阈值判断语音的真伪。本发明结合不同特征说话人在嵌入空间上的不同位置，引入多中心的嵌入空间进行训练，解决单中心嵌入空间方法鉴伪导致的错误率高问题，同时添加多种噪音和混响模拟真实环境，有效解决语音鉴伪在真实环境下准确率较低，泛化性差的问题。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L25/00	不限于组G10L 15/00-G10L 21/00的语言或者声音分析技术(当利用语音检测器来感知一些信号特殊特征的基于半导体的静噪放大器，如无信号时的感知入H03G3/34)
G10L25/48	.专门适用于特定用途
G10L25/51	..比较或判别