基于主题引导的Transformer的遥感图像字幕生成方法
摘要:
本发明公开了一种基于主题引导的Transformer遥感图像字幕生成方法,主要解决现有技术生成的描述单一,且无法精确表示图像中的语义信息的问题。其实现方案为:搭建一个由Transformer和主题向量组成的主题编码器,并在分类数据集上进行预训练;搭建一个由随机掩码层、嵌入层、Transformer解码器和soft‑max层级联组成的语义解码器;将主题编码器和语义解码器进行连接,得到遥感图像字幕生成网络;设置训练参数,用标准RSICD数据集迭代训练遥感图像字幕生成网络;利用训练好的遥感图像字幕生成网络生成字幕描述。本发明提高了生成描述的多样性和准确性,可用于地物图像检索、灾情预测、图像理解。
0/0