- 专利标题: 基于主题引导的Transformer的遥感图像字幕生成方法
-
申请号: CN202210689905.9申请日: 2022-06-17
-
公开(公告)号: CN115035508B公开(公告)日: 2024-09-27
- 发明人: 郭璋 , 任子豪 , 缑水平 , 毛莎莎 , 李睿敏 , 杨华
- 申请人: 西安电子科技大学
- 申请人地址: 陕西省西安市太白南路2号
- 专利权人: 西安电子科技大学
- 当前专利权人: 西安电子科技大学
- 当前专利权人地址: 陕西省西安市太白南路2号
- 代理机构: 陕西电子工业专利中心
- 代理商 王品华
- 主分类号: G06V20/62
- IPC分类号: G06V20/62 ; G06V20/13 ; G06V10/26 ; G06V10/774 ; G06V10/764 ; G06N3/0455 ; G06N3/0475 ; G06N3/084
摘要:
本发明公开了一种基于主题引导的Transformer遥感图像字幕生成方法,主要解决现有技术生成的描述单一,且无法精确表示图像中的语义信息的问题。其实现方案为:搭建一个由Transformer和主题向量组成的主题编码器,并在分类数据集上进行预训练;搭建一个由随机掩码层、嵌入层、Transformer解码器和soft‑max层级联组成的语义解码器;将主题编码器和语义解码器进行连接,得到遥感图像字幕生成网络;设置训练参数,用标准RSICD数据集迭代训练遥感图像字幕生成网络;利用训练好的遥感图像字幕生成网络生成字幕描述。本发明提高了生成描述的多样性和准确性,可用于地物图像检索、灾情预测、图像理解。
公开/授权文献
- CN115035508A 基于主题引导的Transformer的遥感图像字幕生成方法 公开/授权日:2022-09-09