一种基于时间潜在域特定说话人信息的目标语音提取方法

    公开(公告)号:CN112562706B

    公开(公告)日:2023-05-05

    申请号:CN202011376556.2

    申请日:2020-11-30

    摘要: 本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。

    基于循环帧序列门控循环单元网络的语音超分辨率方法

    公开(公告)号:CN112562702A

    公开(公告)日:2021-03-26

    申请号:CN202011374653.8

    申请日:2020-11-30

    摘要: 本发明提供一种基于循环帧序列的门控循环单元网络的语音超分辨率方法,包括如下步骤:(1)对原始语音信号进行预处理;(2)提出构建CFS‑GRU模型;(3)完成基于循环帧序列网络的语音超分辨率。本发明基于GRU搭建的循环结构模型,直接将语音信号序列作为输入,很大程度上减小了计算代价,并且相比于传统方法有着较好的超分辨率效果;相比于LSTM,GRU模型有着较少的模型参数,通过GRU搭建的CFS‑GRU模型能够更快的训练和收敛。使用SegSNRLoss作为损失函数训练的CFS‑GRU模型能够更快的收敛,并且能够使输出帧序列有着较高的信噪比,提高超分辨率语音信号的质量。

    一种基于深度特征重组的快速光学遥感目标识别方法

    公开(公告)号:CN110807372A

    公开(公告)日:2020-02-18

    申请号:CN201910976624.X

    申请日:2019-10-15

    摘要: 本发明属于深度学习遥感目标识别技术领域,具体涉及提高对目标的计算速度的一种基于深度特征重组的快速光学遥感目标识别方法。本方法包括如下步骤:分别建立自下而上50层ResNets以及101层ResNets网络架构作为构建特征金字塔网络的基础,对遥感图像进行初步特征提取,提取出4个不同的尺度的特征C2,C3,C4,C5;将得到的4个特征分别通过自上而下路径的卷积网络进行相互叠加得到新特征M2,M3,M4,M5用来消除不同层之间的混叠效果。将得到的M5特征图加倍得到新特征P5,特征P6是通过对P5进行3x3,然后对特征P6进行ReLU激活函数,再通过3x3,并且步长为2的卷积,就可以得到特征p7。本发明既具有单阶段测试模型的速度优势,又具有双阶段测试模型的计算准确度。

    一种基于稠密连接的异源图像自动配准方法

    公开(公告)号:CN113838107A

    公开(公告)日:2021-12-24

    申请号:CN202111117036.4

    申请日:2021-09-23

    摘要: 本发明属于遥感图像配准技术领域,具体涉及一种基于稠密连接的异源图像自动配准方法。本发明先对SAR与光学图像进行转换,再使用结合注意力机制的卷积神经网络进行特征点的提取,接着将提取到的特征点进行特征编码并完成预匹配,通过使用高斯混合模型进行动态内联点选择,从而完成特征点的匹配,最后进行图像配准,得到最终结果。本发明通过使用循环生成式对抗网络,解决了异源图像因成像原理不同给配准带来的困难,同时使用改进后的稠密连接Densenet结构提取特征点,极大提高了精度,从而提升后续模型配准的性能。