一种视觉定位方法、装置、设备及介质
摘要:
本申请公开了一种视觉定位方法、装置、设备及介质,涉及人工智能技术领域,该方法包括:对图像编码特征与文本编码特征进行特征拼接;对拼接后编码特征进行特征融合,得到第一融合后编码特征;基于预设跨注意力机制分别对第一融合后编码特征与文本编码特征进行噪声修正,得到修正后融合特征与修正后文本编码特征,对拼接后编码特征与修正后文本编码特征进行特征融合得到第二融合后编码特征;利用基于修正后融合特征和第二融合后编码特征确定的目标编码特征对预设框特征进行修正,以预测目标视觉物体的区域位置坐标,可见,本申请基于预设跨注意力机制对图文噪声进行修正,通过降低对文本中噪声部分的关注度削弱了噪声的影响,实现抗噪视觉定位。
公开/授权文献
0/0