-
公开(公告)号:CN111028277B
公开(公告)日:2023-01-10
申请号:CN201911256966.0
申请日:2019-12-10
申请人: 中国电子科技集团公司第五十四研究所 , 哈尔滨工程大学
IPC分类号: G06T7/33
摘要: 本发明公开了遥感图像配准技术领域的基于伪孪生卷积神经网络的SAR和光学遥感图像配准方法,先对特征图像块的采集和匹配,再进行异常点去除和最终配准,采用了最大化正样本和难负样本之间的特征距离的策略,并且定义了新的损失函数对网络进行训练,伪孪生网络的两个分支通过卷积运算连接,得到两个输入图像块之间的相似性得分;本发明通过提出了伪孪生卷积神经网络体系结构,使得伪孪生网络的左分支和右分支能够分别输入不同大小的光学和SAR遥感图像,能够解决在极高分辨率下光学和SAR遥感图像中识别相应图像块的任务。
-
公开(公告)号:CN111028277A
公开(公告)日:2020-04-17
申请号:CN201911256966.0
申请日:2019-12-10
申请人: 中国电子科技集团公司第五十四研究所 , 哈尔滨工程大学
IPC分类号: G06T7/33
摘要: 本发明公开了遥感图像配准技术领域的基于伪孪生卷积神经网络的SAR和光学遥感图像配准方法,先对特征图像块的采集和匹配,再进行异常点去除和最终配准,采用了最大化正样本和难负样本之间的特征距离的策略,并且定义了新的损失函数对网络进行训练,伪孪生网络的两个分支通过卷积运算连接,得到两个输入图像块之间的相似性得分;本发明通过提出了伪孪生卷积神经网络体系结构,使得伪孪生网络的左分支和右分支能够分别输入不同大小的光学和SAR遥感图像,能够解决在极高分辨率下光学和SAR遥感图像中识别相应图像块的任务。
-
公开(公告)号:CN116230015B
公开(公告)日:2023-08-08
申请号:CN202310240262.4
申请日:2023-03-14
申请人: 哈尔滨工程大学
摘要: 本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法,能够有效区分正常信息和异常信息,提升异常声音检测的稳定性和对不同机器的适应性。本发明通过对原始音频信号获取Log‑Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题。并基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。
-
公开(公告)号:CN116230015A
公开(公告)日:2023-06-06
申请号:CN202310240262.4
申请日:2023-03-14
申请人: 哈尔滨工程大学
摘要: 本发明提出一种基于音频时序信息加权的频域特征表示异音检测方法,能够有效区分正常信息和异常信息,提升异常声音检测的稳定性和对不同机器的适应性。本发明通过对原始音频信号获取Log‑Mel谱频域特征,并在时间维度上对其应用全局加权排序池化,得到音频信号的基于音频时序信息加权的频域特征表示,解决了对稳定音频信号和非稳定音频信号的平衡问题。并基于音频时序信息加权的频域特征表示,针对不同机器类型,根据最佳检测性能,找到全局加权排序池化最合适的池化参数,实现用于异常声音检测的更鲁棒性的音频特征表示。
-
公开(公告)号:CN113838064A
公开(公告)日:2021-12-24
申请号:CN202111115253.X
申请日:2021-09-23
申请人: 哈尔滨工程大学
摘要: 本发明属于遥感图像处理技术领域,具体涉及一种基于分支GAN使用多时相遥感数据的云去除方法。本发明设计了一个深度卷积编码器‑解码器网络模型用于遥感图像云检测,以及一个分支GAN模型用于遥感图像的云去除,在保证云去除效果的同时,提升了重建像素的分辨率。本发明利用最大池化索引来进行输入图像特征图的非线性上采样,减少了端到端训练的参数量,提高了网络训练的时间;采用分支UNet结构来融合多时相遥感图像的特征信息,通过共享底层的语义信息,有效提高遥感图像云去除的精度。
-
公开(公告)号:CN112562702A
公开(公告)日:2021-03-26
申请号:CN202011374653.8
申请日:2020-11-30
申请人: 哈尔滨工程大学
IPC分类号: G10L21/003 , G10L25/18 , G10L25/24
摘要: 本发明提供一种基于循环帧序列的门控循环单元网络的语音超分辨率方法,包括如下步骤:(1)对原始语音信号进行预处理;(2)提出构建CFS‑GRU模型;(3)完成基于循环帧序列网络的语音超分辨率。本发明基于GRU搭建的循环结构模型,直接将语音信号序列作为输入,很大程度上减小了计算代价,并且相比于传统方法有着较好的超分辨率效果;相比于LSTM,GRU模型有着较少的模型参数,通过GRU搭建的CFS‑GRU模型能够更快的训练和收敛。使用SegSNRLoss作为损失函数训练的CFS‑GRU模型能够更快的收敛,并且能够使输出帧序列有着较高的信噪比,提高超分辨率语音信号的质量。
-
公开(公告)号:CN116230012A
公开(公告)日:2023-06-06
申请号:CN202310177110.4
申请日:2023-02-28
申请人: 哈尔滨工程大学
摘要: 本发明提出了一种基于元数据对比学习预训练的两阶段异音检测方法,属于声音检测领域,解决了现有单阶段异音检测方法对声音信号与其对应元数据信息匹配关系发掘程度不高,难以区分不同元数据信息下声音信号差异的问题。本发明提供的两阶段异音检测方法包含元数据对比学习预训练和自监督微调两个阶段,元数据对比学习预训练阶段加强了相同元数据信息下的声音信号关联,放大了不同元数据信息下声音信号的距离,学习到了能够根据元数据信息区分不同声音信号的能力;自监督微调部分在元数据对比学习获得的预训练参数基础上,进行优化微调,进一步提升了对不同元数据信息下声音信号的区别能力,进而提升了异音检测方法的性能表现与稳定性。
-
公开(公告)号:CN114155879B
公开(公告)日:2022-07-01
申请号:CN202111475597.1
申请日:2021-12-06
申请人: 哈尔滨工程大学
摘要: 本发明公开的属于异音检测方法技术领域,具体为一种利用时频融合补偿异常感知及稳定性的异音检测方法,借助从声学目标原始音频信号x∈R1*L获取的时域信息和频域信息形成感知互补;时频域融合特征输入深度神经网络,经过网络学习从而获得对于待检测声学目标的状态感知,针对现有异音检测方法所采用的Log‑Mel谱特征对一定声学目标缺乏感知能力的问题,本发明设计了从时域角度构建的可学习特征与Log‑Mel谱相融合,实现了时频域信息互补的双赢增益机制,本发明设计的时频域融合的可学习特征能够有效地提升异音检测系统的稳定性,解决现有工业异音检测方法稳定性不足,检测结果可信度低的问题。
-
公开(公告)号:CN112562706B
公开(公告)日:2023-05-05
申请号:CN202011376556.2
申请日:2020-11-30
申请人: 哈尔滨工程大学
IPC分类号: G10L21/02 , G10L21/0208 , G10L25/03
摘要: 本发明提供一种基于时间潜在域特定说话人信息的目标语音提取方法,包括时间潜在域特征转换模型、目标说话人特征信息指导器与增强提取模块;待处理的复杂声学环境语音信息经过时间潜在域特征转换模型的处理将映射到潜在空间的特征矩阵,此特征矩阵将分别进入目标说话人特征信息指导器与增强提取模块;在目标说话人特征信息指导器中,特征矩阵将被判定为与某一特定的目标说话人潜在特征具有相关性,或者不包含目标说话人特征。本发明能实现从复杂声学环境语音信号到特定目标语音信号的端到端处理,能高效提取出针对特定任务的目标说话人信息,而不受其他干扰信号的影响,保障了模型传递给后续任务的特定目标语音信号具备极高的语音质量与可感知性。
-
公开(公告)号:CN114155835A
公开(公告)日:2022-03-08
申请号:CN202111475701.7
申请日:2021-12-06
申请人: 哈尔滨工程大学
IPC分类号: G10L15/02 , G10L15/06 , G10L15/16 , G10L15/26 , G10L25/30 , G10L25/51 , G06F40/216 , G06F40/30 , G06N3/04 , G06N3/08
摘要: 本发明涉及一种音频语意概述方法,具体为一种融合全局场景与局部事件信息的音频语意概述方法,首先对实际场景中产生的音频进行建模分析,随后从声学场景的宏观全局特性入手,并融合了对于场景内各音频事件的精细化感知,最终生成贴合人类自然语言逻辑的语意概述文本,本发明对于声学场景中局部声音事件的精细化感知为构建音频特征的语意信息与自然语言语意信息的映射提供了细粒度的信息感知方式,能够有效规避传统方法对于音频事件的误识别与内容忽略,有助于构建更高语意层次的人机交互过程;此外,本发明提供了全新的注意力计算机制,相比传统注意力机制降低了计算成本。
-
-
-
-
-
-
-
-
-