Patent search ap:("电子科技大学") AND inv:"程少翀" Page 1

1.

发明公开
一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法审中-实审

公开(公告)号：CN119810899A

公开(公告)日：2025-04-11

申请号：CN202411864237.4

申请日：2024-12-18

Applicant: 电子科技大学

Inventor： 邱荷茜 , 李宏亮 , 王岚晓 , 陈新宇 , 张瀚文 , 赵泰锦 , 齐成浩 , 程少翀 , 代瑞松

IPC: G06V40/18 , G06V10/762 , G06V10/80 , G06V10/82 , G06N3/0464 , G06N3/09 , G06N3/045

Abstract: 本发明公开了一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法，属于计算机视觉、机器学习、多模态理解领域。本发明通过设计语言感知的动态可变形注意力机制，利用人眼注视谱作为监督信息，根据语言特征自适应地捕获相应的视觉区域，同时设计眼动谱驱动的Transformer解码器，通过逐步融合视觉特征表示，推理出语言指示的目标区域位置，从而显示地模拟人眼视觉注意力感知区域以及转移过程，有效提升复杂场景指示表达理解精度。

Patent Agency Ranking