一种卷积增强外部注意力的多说话人时域语音分离方法

发明授权

CN115101085B 一种卷积增强外部注意力的多说话人时域语音分离方法有权

请登陆查看更多内容

专利标题： 一种卷积增强外部注意力的多说话人时域语音分离方法
申请号： CN202210647059.4

申请日： 2022-06-09
公开(公告)号： CN115101085B

公开(公告)日： 2024-08-30
发明人: 闫河 , 张宇宁 , 李梦雪 , 王潇棠 , 刘建骐 , 刘宇涵 , 黄骏滨
申请人： 重庆理工大学
申请人地址： 重庆市巴南区李家沱红光大道69号
专利权人： 重庆理工大学
当前专利权人： 重庆理工大学
当前专利权人地址： 重庆市巴南区李家沱红光大道69号
代理机构： 重庆智盛东唐专利代理事务所
代理商 张秀霞
主分类号： G10L21/0272
IPC分类号： G10L21/0272 ; G10L21/0308 ; G10L25/30

摘要：

本发明涉及语音处理技术领域，尤其涉及一种卷积增强外部注意力的多说话人时域语音分离方法。方法包括：S1.通过编码器将多说话人混合语音，进行卷积运算，转换为其潜在特征表示；通过基于卷积增强外部注意力模块的分离器学习得到语音掩码；语音掩码与编码器输出的潜在特征表示相乘，再通过解码器的反卷积运算重建波形得到分离后的语音。本发明能够满足语音分离较小模型、高时效性的需求，并且以其序列建模的优势来达到更好的分离效果；增强了外部注意力机制学习到更多的特征和相关性，且保持了其分离速度快的优势；在双路结构中的应用可以较好地平衡时效性、模型大小和分离效果。

公开/授权文献

CN115101085A 一种卷积增强外部注意力的多说话人时域语音分离方法公开/授权日：2022-09-23

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G10	乐器；声学
G10L	语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码
G10L21/00	为了改变语音或声音信号的质量或其可识度而处理语音或声音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号（G10L19/00优先）
G10L21/02	.语音增强，例如降低噪声或消除回声（在直线传送系统中减轻回声效应入H04B3/20；免提电话中的回声抑制入H04M9/08）
G10L21/0272	..声音信号的分离