一种针对多说话人的单通道语音分离方法及系统

发明授权

CN113053407B 一种针对多说话人的单通道语音分离方法及系统有权转让

请登陆查看更多内容

专利标题： 一种针对多说话人的单通道语音分离方法及系统
申请号： CN202110173700.0

申请日： 2021-02-06
公开(公告)号： CN113053407B

公开(公告)日： 2024-06-14
发明人: 史慧宇 , 欧阳鹏
申请人： 南京蕴智科技有限公司
申请人地址： 江苏省南京市江宁区麒麟科技创新园创研路266号人工智能产业园8号楼4楼
专利权人： 南京蕴智科技有限公司
当前专利权人： 北京清微智能科技有限公司
当前专利权人地址： 100080 北京市海淀区宝盛南路1号院26号楼2层201
代理机构： 北京索睿邦知识产权代理有限公司
代理商 李根
主分类号： G10L21/0272
IPC分类号： G10L21/0272 ; G10L21/0308 ; G10L25/30

摘要：

本发明提供针对多说话人的单通道语音分离方法，其包括：构建语音分离深度神经网络；获取第一编码、第二编码和第三编码；通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号；对语音分离深度神经网络有监督的训练，以获得训练后的语音分离深度神经网络；将待测试语音样本输入到训练后的语音分离深度神经网络中，获取待测试语音样本中多个语音分离信号。本发明通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据，相比原有方法可有效提高语音输出的准确性，降低语音的失真率，提高可懂度。同时，本发明还提供了针对多说话人的单通道语音分离系统。

公开/授权文献

CN113053407A 一种针对多说话人的单通道语音分离方法及系统公开/授权日：2021-06-29

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/02	.语音增强，例如降低噪声或消除回声（在直线传送系统中减轻回声效应入H04B3/20；免提电话中的回声抑制入H04M9/08）
G10L21/0272	..声音信号的分离