-
公开(公告)号:CN110135441A
公开(公告)日:2019-08-16
申请号:CN201910414090.1
申请日:2019-05-17
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种图像的文本描述方法及装置,方法包括:获取待描述图像,提取待描述图像的多个区域特征和一个全局特征;将区域特征、全局特征输入预先训练的文本描述神经网络中的句子级子网络,得到针对每个待生成句子的句子指导向量;将句子指导向量输入文本描述神经网络中的词汇子网络,得到描述文本;由于采用句子级子网络和词汇级子网络的分层结构,能够捕捉段落中句子之间的连贯性,提高了生成的文本段落中句子之间的连贯性,此外,相较于现有的基于循环神经网络的方案,降低了训练过程的计算复杂度。
-
公开(公告)号:CN114186568B
公开(公告)日:2022-08-02
申请号:CN202111541714.X
申请日:2021-12-16
Applicant: 北京邮电大学
Abstract: 本发明公开了一种基于关系编码和层次注意力机制的图像段落描述方法,方法模型由关系编码模块和层次注意解码模块组成。关系编码模块通过两个编码器捕获编码空间关系信息和语义关系信息,其中语义关系编码时通过训练有监督的语义分类器来学习语义关系的先验知识。层次注意解码模块的层次注意力使用带有关系门和视觉门的层次注意力来动态的融合关系信息和物体区域特征,关系门用于在空间关系信息和语义关系信息之间切换,视觉门用于决定是否嵌入使用视觉信息,模型采用从粗粒度区域到细粒度的空间和语义关系的策略在段落生成过程中融合视觉信息。通过在斯坦福段落描述数据集上的大量实验表明,本发明方法在本领域的多个评价指标上显著优于现有方法。
-
公开(公告)号:CN110135441B
公开(公告)日:2020-03-03
申请号:CN201910414090.1
申请日:2019-05-17
Applicant: 北京邮电大学
Abstract: 本发明实施例提供了一种图像的文本描述方法及装置,方法包括:获取待描述图像,提取待描述图像的多个区域特征和一个全局特征;将区域特征、全局特征输入预先训练的文本描述神经网络中的句子级子网络,得到针对每个待生成句子的句子指导向量;将句子指导向量输入文本描述神经网络中的词汇子网络,得到描述文本;由于采用句子级子网络和词汇级子网络的分层结构,能够捕捉段落中句子之间的连贯性,提高了生成的文本段落中句子之间的连贯性,此外,相较于现有的基于循环神经网络的方案,降低了训练过程的计算复杂度。
-
公开(公告)号:CN114186568A
公开(公告)日:2022-03-15
申请号:CN202111541714.X
申请日:2021-12-16
Applicant: 北京邮电大学
Abstract: 本发明公开了一种基于关系编码和层次注意力机制的图像段落描述方法,方法模型由关系编码模块和层次注意解码模块组成。关系编码模块通过两个编码器捕获编码空间关系信息和语义关系信息,其中语义关系编码时通过训练有监督的语义分类器来学习语义关系的先验知识。层次注意解码模块的层次注意力使用带有关系门和视觉门的层次注意力来动态的融合关系信息和物体区域特征,关系门用于在空间关系信息和语义关系信息之间切换,视觉门用于决定是否嵌入使用视觉信息,模型采用从粗粒度区域到细粒度的空间和语义关系的策略在段落生成过程中融合视觉信息。通过在斯坦福段落描述数据集上的大量实验表明,本发明方法在本领域的多个评价指标上显著优于现有方法。
-
-
-