发明公开
- 专利标题: 基于复数坐标注意力的语音增强方法、系统、设备及介质
-
申请号: CN202410752242.X申请日: 2024-06-12
-
公开(公告)号: CN118762705A公开(公告)日: 2024-10-11
- 发明人: 潘建明 , 钱喜鹤 , 姚海燕 , 王海平 , 郭强 , 李钟煦 , 方彦霖 , 丁力 , 倪诗齐
- 申请人: 杭州电力设备制造有限公司 , 国网浙江省电力有限公司杭州市余杭区供电公司 , 国网浙江省电力有限公司杭州供电公司
- 申请人地址: 浙江省杭州市钱塘新区11号大街91号; ;
- 专利权人: 杭州电力设备制造有限公司,国网浙江省电力有限公司杭州市余杭区供电公司,国网浙江省电力有限公司杭州供电公司
- 当前专利权人: 杭州电力设备制造有限公司,国网浙江省电力有限公司杭州市余杭区供电公司,国网浙江省电力有限公司杭州供电公司
- 当前专利权人地址: 浙江省杭州市钱塘新区11号大街91号; ;
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 张影
- 主分类号: G10L21/0224
- IPC分类号: G10L21/0224 ; G06F17/15 ; G06F17/14 ; G10L21/0232 ; G10L21/0264 ; G10L25/30
摘要:
本发明公开了一种基于复数坐标注意力的语音增强方法、系统、设备及介质,涉及语音处理领域,该方法包括将原始语音从时域转换到时频域;采用编码器对原始语音的时频域表示进行特征提取;编码器包括多个依次连接的编码块,各编码块均包括依次连接的复数卷积层、复数批归一化层、实数激活函数和复数坐标注意力模块;采用解码器对编码器中每个编码块输出的特征图进行解码,生成频谱掩码;解码器包括多个依次连接的解码块,各解码块均包括依次连接的复数转置卷积层、复数批归一化层、实数激活函数和复数坐标注意力模块;将频谱掩码与原始语音的时频域表示进行逐点相乘后进行时域转换,获得增强后的语音。本发明提高了语音增强后语音的质量。