专利检索 ap:("华中科技大学") AND inv:"熊若非" 第 1 页

1.

发明授权
场景识别方法、训练方法、装置、电子设备及程序产品有权

公开(公告)号：CN113408590B

公开(公告)日：2022-07-15

申请号：CN202110584515.0

申请日：2021-05-27

申请人： 华中科技大学

发明人： 刘琼 , 熊若非 , 杨铀

IPC分类号： G06K9/62 , G06N3/04 , G06V10/774 , G06V10/771 , G06V10/82 , G06V10/80

摘要： 本发明实施例提供一种场景识别方法、训练方法、装置、电子设备及程序产品，该方法包括：获取待识别场景的彩色图像与深度图像；利用特征提取算法对彩色图像与深度图像分别进行特征提取，获得彩色图像对应的第一全局特征与第一局部特征，以及深度图像对应的第二全局特征与第二局部特征；对第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合，得到待识别场景的多模态特征；对待识别场景的多模态特征进行场景识别，得到待识别场景的识别结果。由于在提取彩色图像与深度图像的全局特征的基础上，还分别提取彩色图像与深度图像的第一局部特征与第二局部特征，并将上述局部特征与全局特征进行融合，进而提高了场景识别的准确度。

2.

发明授权
一种基于金字塔注意力的场景识别方法、训练方法及装置有权

公开(公告)号：CN113822232B

公开(公告)日：2022-02-08

申请号：CN202111372903.9

申请日：2021-11-19

申请人： 华中科技大学

发明人： 杨铀 , 熊若非 , 刘琼

IPC分类号： G06V20/00 , G06V10/56 , G06V10/80 , G06V10/82 , G06K9/62 , G06N3/04

摘要： 本发明公开了一种基于金字塔注意力的场景识别方法、训练方法及装置，属于计算机视觉领域。方法包括：对彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；对各层中每一层对应的注意力图和最终特征图分别进行尺度变换，以两个新注意力图的平均值作为最终注意力图，并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；融合全局特征以及各层局部特征后，能够提高场景识别的准确度。

3.

发明公开
一种基于金字塔注意力的场景识别方法、训练方法及装置有权

公开(公告)号：CN113822232A

公开(公告)日：2021-12-21

申请号：CN202111372903.9

申请日：2021-11-19

申请人： 华中科技大学

发明人： 杨铀 , 熊若非 , 刘琼

IPC分类号： G06K9/00 , G06K9/46 , G06K9/62 , G06N3/04

摘要： 本发明公开了一种基于金字塔注意力的场景识别方法、训练方法及装置，属于计算机视觉领域。方法包括：对彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；对各层中每一层对应的注意力图和最终特征图分别进行尺度变换，以两个新注意力图的平均值作为最终注意力图，并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；融合全局特征以及各层局部特征后，能够提高场景识别的准确度。

4.

发明公开
场景识别方法、训练方法、装置、电子设备及程序产品有权

公开(公告)号：CN113408590A

公开(公告)日：2021-09-17

申请号：CN202110584515.0

申请日：2021-05-27

申请人： 华中科技大学

发明人： 刘琼 , 熊若非 , 杨铀

IPC分类号： G06K9/62 , G06N3/04

摘要： 本发明实施例提供一种场景识别方法、训练方法、装置、电子设备及程序产品，该方法包括：获取待识别场景的彩色图像与深度图像；利用特征提取算法对彩色图像与深度图像分别进行特征提取，获得彩色图像对应的第一全局特征与第一局部特征，以及深度图像对应的第二全局特征与第二局部特征；对第一全局特征、第二全局特征、第一局部特征以及第二局部特征进行融合，得到待识别场景的多模态特征；对待识别场景的多模态特征进行场景识别，得到待识别场景的识别结果。由于在提取彩色图像与深度图像的全局特征的基础上，还分别提取彩色图像与深度图像的第一局部特征与第二局部特征，并将上述局部特征与全局特征进行融合，进而提高了场景识别的准确度。