一种卷积增强外部注意力的多说话人时域语音分离方法

    公开(公告)号:CN115101085B

    公开(公告)日:2024-08-30

    申请号:CN202210647059.4

    申请日:2022-06-09

    摘要: 本发明涉及语音处理技术领域,尤其涉及一种卷积增强外部注意力的多说话人时域语音分离方法。方法包括:S1.通过编码器将多说话人混合语音,进行卷积运算,转换为其潜在特征表示;通过基于卷积增强外部注意力模块的分离器学习得到语音掩码;语音掩码与编码器输出的潜在特征表示相乘,再通过解码器的反卷积运算重建波形得到分离后的语音。本发明能够满足语音分离较小模型、高时效性的需求,并且以其序列建模的优势来达到更好的分离效果;增强了外部注意力机制学习到更多的特征和相关性,且保持了其分离速度快的优势;在双路结构中的应用可以较好地平衡时效性、模型大小和分离效果。

    一种基于边缘梯度导向插值的deplabv3+语义分割方法

    公开(公告)号:CN114897919B

    公开(公告)日:2024-09-17

    申请号:CN202210520032.9

    申请日:2022-05-13

    IPC分类号: G06T7/12 G06T5/70 G06T7/13

    摘要: 本发明公开了一种基于边缘梯度导向插值的deplabv3+语义分割方法,涉及智能算法、深度学习技术领域。本发明步骤如下:S1:使用高斯模糊进行降噪,在进行边缘检测之前首先要对原图像进行高斯滤波,减少噪声对边缘检测的影响;S2:采用Sobel算子对模糊后的图像分别求x方向与y方向的梯度,可以得到总的梯度图像即检测到的边缘图,也就是低分辨率图像的梯度;S3:提最后分别对x和y方向实行双三次插值。本发明通过将deeplabv3+语义分割模型中所使用的双线性插值替换成边缘梯度导向插值算法,以此获得更多容易被忽略的图像物体边缘特征信息,提高语义分割的精确度,进而能够有效的提高图像插值质量,以及对语义分割精确度其MIOU有一定的提高。

    一种基于边缘梯度导向插值的deplabv3+语义分割方法

    公开(公告)号:CN114897919A

    公开(公告)日:2022-08-12

    申请号:CN202210520032.9

    申请日:2022-05-13

    IPC分类号: G06T7/12 G06T5/00 G06T7/13

    摘要: 本发明公开了一种基于边缘梯度导向插值的deplabv3+语义分割方法,涉及智能算法、深度学习技术领域。本发明步骤如下:S1:使用高斯模糊进行降噪,在进行边缘检测之前首先要对原图像进行高斯滤波,减少噪声对边缘检测的影响;S2:采用Sobel算子对模糊后的图像分别求x方向与y方向的梯度,可以得到总的梯度图像即检测到的边缘图,也就是低分辨率图像的梯度;S3:提最后分别对x和y方向实行双三次插值。本发明通过将deeplabv3+语义分割模型中所使用的双线性插值替换成边缘梯度导向插值算法,以此获得更多容易被忽略的图像物体边缘特征信息,提高语义分割的精确度,进而能够有效的提高图像插值质量,以及对语义分割精确度其MIOU有一定的提高。

    一种卷积增强外部注意力的多说话人时域语音分离方法

    公开(公告)号:CN115101085A

    公开(公告)日:2022-09-23

    申请号:CN202210647059.4

    申请日:2022-06-09

    摘要: 本发明涉及语音处理技术领域,尤其涉及一种卷积增强外部注意力的多说话人时域语音分离方法。方法包括:S1.通过编码器将多说话人混合语音,进行卷积运算,转换为其潜在特征表示;通过基于卷积增强外部注意力模块的分离器学习得到语音掩码;语音掩码与编码器输出的潜在特征表示相乘,再通过解码器的反卷积运算重建波形得到分离后的语音。本发明能够满足语音分离较小模型、高时效性的需求,并且以其序列建模的优势来达到更好的分离效果;增强了外部注意力机制学习到更多的特征和相关性,且保持了其分离速度快的优势;在双路结构中的应用可以较好地平衡时效性、模型大小和分离效果。