-
公开(公告)号:CN119810899A
公开(公告)日:2025-04-11
申请号:CN202411864237.4
申请日:2024-12-18
Applicant: 电子科技大学
IPC: G06V40/18 , G06V10/762 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/09 , G06N3/045
Abstract: 本发明公开了一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法,属于计算机视觉、机器学习、多模态理解领域。本发明通过设计语言感知的动态可变形注意力机制,利用人眼注视谱作为监督信息,根据语言特征自适应地捕获相应的视觉区域,同时设计眼动谱驱动的Transformer解码器,通过逐步融合视觉特征表示,推理出语言指示的目标区域位置,从而显示地模拟人眼视觉注意力感知区域以及转移过程,有效提升复杂场景指示表达理解精度。