一种基于对比学习的弱监督时序动作定位方法

    公开(公告)号:CN114494941A

    公开(公告)日:2022-05-13

    申请号:CN202111610682.4

    申请日:2021-12-27

    申请人: 天津大学

    IPC分类号: G06V20/40 G06V40/20 G06K9/62

    摘要: 本发明公开了一种基于对比学习的弱监督时序动作定位方法,仅在视频级的动作类别标签的监督下,从未剪辑视频中定位感兴趣的动作。首先,使用预训练的特征提取网络对原始视频的RGB数据和光流数据提取视频特征,并将其送入后续的动作定位网络。动作定位网络包含两个支路,其中一个支路将视频特征映射为原始的时域类激活序列(T‑CAS);另一个支路为多分支注意力模型,分别对视频中的显著动作片段、背景片段和模糊动作片段进行建模,同时生成三个相应的时域类激活序列,并通过多示例学习(MIL)机制,使网络获得分离动作特征和背景特征的能力。本发明能够在未剪辑视频中感知精确的动作时间边界,避免完整动作的截断现象发生,很大程度地提高了动作定位精度。

    一种基于深度神经网络的相机姿态估计方法

    公开(公告)号:CN110490928B

    公开(公告)日:2023-08-15

    申请号:CN201910603891.2

    申请日:2019-07-05

    申请人: 天津大学

    IPC分类号: G06T7/70

    摘要: 本发明公开了一种基于深度神经网络的相机姿态估计方法,步骤如下:1)构建相机姿态估计网络;2)构建无监督训练方案,利用估计的深度图、帧间相对位姿及光流从输入的前后帧图像中分别重建出相应的图像,利用输入图像和重建图像之间的光度误差构建网络的损失函数;3)位姿估计模块与光流估计模块共享特征提取部分,加强特征对于帧间的几何联系;4)输入待训练单视点视频,输出对应帧间相对位姿,通过最优化手段降低损失函数来训练模型,以至网络达到收敛。本发明所提出的模型通过输入单视点视频序列输出对应序列的相机位姿,训练过程以一种端到端无监督的方式进行,通过光流与位姿联合训练,提高位姿估计性能。

    一种CT图像病变检测方法

    公开(公告)号:CN113469942B

    公开(公告)日:2022-02-22

    申请号:CN202110608053.1

    申请日:2021-06-01

    申请人: 天津大学

    摘要: 本发明提供了一种CT图像病变检测方法,对医学CT图像进行预处理和数据增强;构建多张连续切片病变检测的网络模型,模型基于Mask‑RCNN网络,包括卷积神经网络CNN,RPN网络和RCNN网络,模型分两个阶段进行病变检测,在卷积神经网络CNN中构建多尺度下的局部轴向自注意力MSLASA模块,利用MSLASA模块,实现了像素点在不同局部区域的信息结合,使得特征图中每个像素点都能根据合适的局部空间获取自身权重值。通过注意力机制,在很大程度上把病变相关的信息增强凸显,把非病变的特征进行淡化过滤,这样不仅减轻了下一阶段网络判别的任务,而且在很大程度上减少了假阳性样本的数目。

    一种CT图像病变检测方法

    公开(公告)号:CN113469942A

    公开(公告)日:2021-10-01

    申请号:CN202110608053.1

    申请日:2021-06-01

    申请人: 天津大学

    摘要: 本发明提供了一种CT图像病变检测方法,对医学CT图像进行预处理和数据增强;构建多张连续切片病变检测的网络模型,模型基于Mask‑RCNN网络,包括卷积神经网络CNN,RPN网络和RCNN网络,模型分两个阶段进行病变检测,在卷积神经网络CNN中构建多尺度下的局部轴向自注意力MSLASA模块,利用MSLASA模块,实现了像素点在不同局部区域的信息结合,使得特征图中每个像素点都能根据合适的局部空间获取自身权重值。通过注意力机制,在很大程度上把病变相关的信息增强凸显,把非病变的特征进行淡化过滤,这样不仅减轻了下一阶段网络判别的任务,而且在很大程度上减少了假阳性样本的数目。

    一种基于注意力机制的神经网络的人体动作识别方法

    公开(公告)号:CN110728183A

    公开(公告)日:2020-01-24

    申请号:CN201910846654.9

    申请日:2019-09-09

    申请人: 天津大学

    摘要: 本发明公开了一种基于注意力机制的神经网络的人体动作识别方法,该方法提出了一个端到端的可训练网络,包括深度卷积子网络和注意力子网络,用于从骨架数据中识别人类动作。首先,将骨架序列编码为彩色的时空图并馈入深度卷积子网络中以提取深层次特征,并使用全连接层映射到标签空间中。在注意力子网络中,提取表示关节运动重要程度的手工制作的特征,并通过简单但有效的线性映射来学习注意力权重,其结果也通过全连接层映射到标签空间中。二者的结果通过乘法融合,得到最后的识别准确率。本发明可以最大幅度地自动从数据中提取有效的深层次特征。本发明的网络结构包含两个子网络,两个网络同时以端到端的方式进行联合训练而不需要后处理。

    一种基于深度神经网络的相机姿态估计方法

    公开(公告)号:CN110490928A

    公开(公告)日:2019-11-22

    申请号:CN201910603891.2

    申请日:2019-07-05

    申请人: 天津大学

    IPC分类号: G06T7/70

    摘要: 本发明公开了一种基于深度神经网络的相机姿态估计方法,步骤如下:1)构建相机姿态估计网络;2)构建无监督训练方案,利用估计的深度图、帧间相对位姿及光流从输入的前后帧图像中分别重建出相应的图像,利用输入图像和重建图像之间的光度误差构建网络的损失函数;3)位姿估计模块与光流估计模块共享特征提取部分,加强特征对于帧间的几何联系;4)输入待训练单视点视频,输出对应帧间相对位姿,通过最优化手段降低损失函数来训练模型,以至网络达到收敛。本发明所提出的模型通过输入单视点视频序列输出对应序列的相机位姿,训练过程以一种端到端无监督的方式进行,通过光流与位姿联合训练,提高位姿估计性能。

    一种基于注意力机制的神经网络的人体动作识别方法

    公开(公告)号:CN110728183B

    公开(公告)日:2023-09-22

    申请号:CN201910846654.9

    申请日:2019-09-09

    申请人: 天津大学

    摘要: 本发明公开了一种基于注意力机制的神经网络的人体动作识别方法,该方法提出了一个端到端的可训练网络,包括深度卷积子网络和注意力子网络,用于从骨架数据中识别人类动作。首先,将骨架序列编码为彩色的时空图并馈入深度卷积子网络中以提取深层次特征,并使用全连接层映射到标签空间中。在注意力子网络中,提取表示关节运动重要程度的手工制作的特征,并通过简单但有效的线性映射来学习注意力权重,其结果也通过全连接层映射到标签空间中。二者的结果通过乘法融合,得到最后的识别准确率。本发明可以最大幅度地自动从数据中提取有效的深层次特征。本发明的网络结构包含两个子网络,两个网络同时以端到端的方式进行联合训练而不需要后处理。

    一种基于深度神经网络的单目视觉的深度估计方法

    公开(公告)号:CN110490919B

    公开(公告)日:2023-04-18

    申请号:CN201910603880.4

    申请日:2019-07-05

    申请人: 天津大学

    IPC分类号: G06T7/55 G06N3/0464 G06N3/08

    摘要: 本发明公开了一种基于深度神经网络的单目视觉深度估计方法,步骤如下:1)构建多尺度深度估计网络,2)构建无监督训练方案,3)利用左、右视点间深度图及基线计算之间刚性流,通过刚性流之间的差异较大的区域得到左、右视点图像之间的遮挡区域。同时在计算损失函数过程中,将遮挡区域排除在损失函数计算之外;4)输入待训练双目立体视频中的一个视点视频,输出对应左、右视点深度图,通过最优化手段降低损失函数来训练模型,以至网络达到收敛。发明所提出的模型通过输入单视点视频序列输出高质量的深度图,训练过程不需要深度图的标签提高了模型的应用范围,通过去除双目立体序列之间的遮挡区域解决深度图的边缘模糊问题并提高估计精度。

    一种基于对比学习的弱监督时序动作定位方法

    公开(公告)号:CN114494941B

    公开(公告)日:2024-08-13

    申请号:CN202111610682.4

    申请日:2021-12-27

    申请人: 天津大学

    摘要: 本发明公开了一种基于对比学习的弱监督时序动作定位方法,仅在视频级的动作类别标签的监督下,从未剪辑视频中定位感兴趣的动作。首先,使用预训练的特征提取网络对原始视频的RGB数据和光流数据提取视频特征,并将其送入后续的动作定位网络。动作定位网络包含两个支路,其中一个支路将视频特征映射为原始的时域类激活序列(T‑CAS);另一个支路为多分支注意力模型,分别对视频中的显著动作片段、背景片段和模糊动作片段进行建模,同时生成三个相应的时域类激活序列,并通过多示例学习(MIL)机制,使网络获得分离动作特征和背景特征的能力。本发明能够在未剪辑视频中感知精确的动作时间边界,避免完整动作的截断现象发生,很大程度地提高了动作定位精度。

    一种基于深度神经网络的单目视觉的深度估计方法

    公开(公告)号:CN110490919A

    公开(公告)日:2019-11-22

    申请号:CN201910603880.4

    申请日:2019-07-05

    申请人: 天津大学

    IPC分类号: G06T7/55 G06N3/04 G06N3/08

    摘要: 本发明公开了一种基于深度神经网络的单目视觉深度估计方法,步骤如下:1)构建多尺度深度估计网络,2)构建无监督训练方案,3)利用左、右视点间深度图及基线计算之间刚性流,通过刚性流之间的差异较大的区域得到左、右视点图像之间的遮挡区域。同时在计算损失函数过程中,将遮挡区域排除在损失函数计算之外;4)输入待训练双目立体视频中的一个视点视频,输出对应左、右视点深度图,通过最优化手段降低损失函数来训练模型,以至网络达到收敛。发明所提出的模型通过输入单视点视频序列输出高质量的深度图,训练过程不需要深度图的标签提高了模型的应用范围,通过去除双目立体序列之间的遮挡区域解决深度图的边缘模糊问题并提高估计精度。