一种基于本地自注意力机制的大坝缺陷时序图像描述方法

    公开(公告)号:CN114998673A

    公开(公告)日:2022-09-02

    申请号:CN202210513592.1

    申请日:2022-05-11

    摘要: 本发明公开一种基于本地自注意力机制的大坝缺陷时序图像描述方法,对输入大坝缺陷时序图像进行帧采样,使用卷积神经网络提取特征序列,并将该序列作为自注意力编码器的输入;编码器由基于可变自注意力机制的Transformer网络构成,能够动态建立每一帧的上下文特征关系;采用基于本地注意力机制的LSTM网络生成描述文本,使得预测的每一个单词都能与图像帧建立特征关系,建立图像和文本的上下文依赖以提高文本生成的准确率。本发明在计算图像帧的全局自注意力的基础上添加了动态机制,避免了过大的参数量导致模型收敛缓慢。添加本地注意力的LSTM网络能够直接建立图像和文本两个模态数据之间的对应关系,使得生成的描述文本更准确,包含的信息更全面。