- 专利标题: 一种卷积增强外部注意力的多说话人时域语音分离方法
-
申请号: CN202210647059.4申请日: 2022-06-09
-
公开(公告)号: CN115101085B公开(公告)日: 2024-08-30
- 发明人: 闫河 , 张宇宁 , 李梦雪 , 王潇棠 , 刘建骐 , 刘宇涵 , 黄骏滨
- 申请人: 重庆理工大学
- 申请人地址: 重庆市巴南区李家沱红光大道69号
- 专利权人: 重庆理工大学
- 当前专利权人: 重庆理工大学
- 当前专利权人地址: 重庆市巴南区李家沱红光大道69号
- 代理机构: 重庆智盛东唐专利代理事务所
- 代理商 张秀霞
- 主分类号: G10L21/0272
- IPC分类号: G10L21/0272 ; G10L21/0308 ; G10L25/30
摘要:
本发明涉及语音处理技术领域,尤其涉及一种卷积增强外部注意力的多说话人时域语音分离方法。方法包括:S1.通过编码器将多说话人混合语音,进行卷积运算,转换为其潜在特征表示;通过基于卷积增强外部注意力模块的分离器学习得到语音掩码;语音掩码与编码器输出的潜在特征表示相乘,再通过解码器的反卷积运算重建波形得到分离后的语音。本发明能够满足语音分离较小模型、高时效性的需求,并且以其序列建模的优势来达到更好的分离效果;增强了外部注意力机制学习到更多的特征和相关性,且保持了其分离速度快的优势;在双路结构中的应用可以较好地平衡时效性、模型大小和分离效果。
公开/授权文献
- CN115101085A 一种卷积增强外部注意力的多说话人时域语音分离方法 公开/授权日:2022-09-23