发明授权
- 专利标题: 一种针对多说话人的单通道语音分离方法及系统
-
申请号: CN202110173700.0申请日: 2021-02-06
-
公开(公告)号: CN113053407B公开(公告)日: 2024-06-14
- 发明人: 史慧宇 , 欧阳鹏
- 申请人: 南京蕴智科技有限公司
- 申请人地址: 江苏省南京市江宁区麒麟科技创新园创研路266号人工智能产业园8号楼4楼
- 专利权人: 南京蕴智科技有限公司
- 当前专利权人: 北京清微智能科技有限公司
- 当前专利权人地址: 100080 北京市海淀区宝盛南路1号院26号楼2层201
- 代理机构: 北京索睿邦知识产权代理有限公司
- 代理商 李根
- 主分类号: G10L21/0272
- IPC分类号: G10L21/0272 ; G10L21/0308 ; G10L25/30
摘要:
本发明提供针对多说话人的单通道语音分离方法,其包括:构建语音分离深度神经网络;获取第一编码、第二编码和第三编码;通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号;对语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络;将待测试语音样本输入到训练后的语音分离深度神经网络中,获取待测试语音样本中多个语音分离信号。本发明通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据,相比原有方法可有效提高语音输出的准确性,降低语音的失真率,提高可懂度。同时,本发明还提供了针对多说话人的单通道语音分离系统。
公开/授权文献
- CN113053407A 一种针对多说话人的单通道语音分离方法及系统 公开/授权日:2021-06-29