基于视觉显著性与语义属性跨模态图像自然语言描述方法

    公开(公告)号:CN107688821B

    公开(公告)日:2021-08-06

    申请号:CN201710560024.6

    申请日:2017-07-11

    Abstract: 本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。

    基于语义指导与记忆机制的视频描述方法

    公开(公告)号:CN110991290A

    公开(公告)日:2020-04-10

    申请号:CN201911171235.6

    申请日:2019-11-26

    Abstract: 本发明公开了一种基于语义指导与记忆机制的视频描述方法,主要解决现有技术中视频语义信息利用不足,LSTM网络记忆能力有限的问题,其实现方案是:提取视频的视觉特征;利用单词与视频的视觉特征训练多层感知机得到语义属性预测器;使用注意力机制对视觉特征进行动态的加权求和;构建外部记忆网络,以与LSTM网络进行信息交互;将视频的语义属性融入加权求和后的视觉特征与记忆网络,计算视频的单词概率分布;更新参数,使训练集中所有视频的单词概率分布接近正确分布;固定更新后的参数,得到测试集中视频的描述。本发明能充分利用视频信息,且记忆力强,获得的视频描述准确,可用于视频检索或人机交互中视频的自动语义描述。

    基于语义指导与记忆机制的视频描述方法

    公开(公告)号:CN110991290B

    公开(公告)日:2023-03-10

    申请号:CN201911171235.6

    申请日:2019-11-26

    Abstract: 本发明公开了一种基于语义指导与记忆机制的视频描述方法,主要解决现有技术中视频语义信息利用不足,LSTM网络记忆能力有限的问题,其实现方案是:提取视频的视觉特征;利用单词与视频的视觉特征训练多层感知机得到语义属性预测器;使用注意力机制对视觉特征进行动态的加权求和;构建外部记忆网络,以与LSTM网络进行信息交互;将视频的语义属性融入加权求和后的视觉特征与记忆网络,计算视频的单词概率分布;更新参数,使训练集中所有视频的单词概率分布接近正确分布;固定更新后的参数,得到测试集中视频的描述。本发明能充分利用视频信息,且记忆力强,获得的视频描述准确,可用于视频检索或人机交互中视频的自动语义描述。

    基于视觉显著性与语义属性跨模态图像自然语言描述方法

    公开(公告)号:CN107688821A

    公开(公告)日:2018-02-13

    申请号:CN201710560024.6

    申请日:2017-07-11

    CPC classification number: G06K9/6262 G06K9/6256 G06N3/084

    Abstract: 本发明属于计算机视觉与自然语言处理技术领域,公开了一种基于视觉显著性与语义属性跨模态图像自然语言描述方法,采用卷积神经网络提取图像各区域的多尺度深度视觉特征;利用预训练的显著性模型,回归出图像显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像进行语义属性检测;采用多示例学习计算语义属性;利用语义属性对图像特征加权;采用长短期记忆网络对基于视觉显著性的语义属性特征进行解码,生成图像描述。本发明具有准确度高的优点。可用于复杂场景下的图像检索及多目标图像语义理解等。

Patent Agency Ranking