基于多头跨模态注意力机制的弱监督视频时序动作定位方法

    公开(公告)号:CN115761904A

    公开(公告)日:2023-03-07

    申请号:CN202211666324.X

    申请日:2022-12-23

    申请人: 复旦大学

    摘要: 本发明属于计算机视频分析技术领域,具体为基于多头跨模态注意力机制的弱监督视频时序动作定位方法。本发明方法包括:对输入的未裁剪视频提取RGB特征和FLOW特征,作为多头跨模态注意力机制模型的训练数据;引入并训练深度学习模型,该模型是多头跨模态注意力机制模型,包括利用多个映射头将原始特征转换为多个不同的隐藏空间,以保证特征多样性;引入协相关矩阵,来挖掘RGB与FLOW特征每个头模态之间的关系,通过归一化交叉注意权值对特征进行重新校正;对重新校准的特征进行融合,得到最后的时序动作定位结果。实验表明,本发明具有通用性,可以作为即插即用模块嵌入到弱监督视频时序动作定位方法中,极大提高模型的检测精度。

    一种单模型多分支结构的图像检索方法

    公开(公告)号:CN111125396A

    公开(公告)日:2020-05-08

    申请号:CN201911245796.6

    申请日:2019-12-07

    申请人: 复旦大学

    发明人: 路红 任豪 李思洋

    摘要: 本发明属于图像检索技术领域,具体为一种单模型多分支结构的图像检索方法。本发明采用单模型集成多学习分支结构,特征提取器为多层卷积神经网络结构,学习分支为多卷积层与多隐藏层结构;单个特征提取器与多学习分支共享特征参数,其中,单个特征提取器保证统一的特征表达,结合学习分支的差异化训练方法,实现图像特征属性的映射;多分支结构拼接各个学习器的输出向量以获得最后描述图像的高维向量;最后这个特征向量相似度排序,根据相似度排序,即检索到同类别图像。本发明模型训练时间短,计算效率高。

    一种单模型多分支结构的图像检索方法

    公开(公告)号:CN111125396B

    公开(公告)日:2023-06-30

    申请号:CN201911245796.6

    申请日:2019-12-07

    申请人: 复旦大学

    发明人: 路红 任豪 李思洋

    摘要: 本发明属于图像检索技术领域,具体为一种单模型多分支结构的图像检索方法。本发明采用单模型集成多学习分支结构,特征提取器为多层卷积神经网络结构,学习分支为多卷积层与多隐藏层结构;单个特征提取器与多学习分支共享特征参数,其中,单个特征提取器保证统一的特征表达,结合学习分支的差异化训练方法,实现图像特征属性的映射;多分支结构拼接各个学习器的输出向量以获得最后描述图像的高维向量;最后这个特征向量相似度排序,根据相似度排序,即检索到同类别图像。本发明模型训练时间短,计算效率高。

    一种对偶式语义分割方法
    5.
    发明公开

    公开(公告)号:CN111126451A

    公开(公告)日:2020-05-08

    申请号:CN201911209672.2

    申请日:2019-12-01

    申请人: 复旦大学

    发明人: 路红 任豪 肖涵

    摘要: 本发明属于计算机视觉技术领域,具体为对偶式语义分割方法。本发明方法的步骤为:根据用户输入的图像,进行编码过程,将图像尺度缩小为原图的1/16,然后通过解码器结构,融合编码过程中的细粒度信息,恢复到原图尺度输出分割之后的结果图。本发明提出了一种对偶式的编码器——解码器结构,且能够对图像进行有效的语义分割。