-
公开(公告)号:CN119848277A
公开(公告)日:2025-04-18
申请号:CN202411861774.3
申请日:2024-12-17
Applicant: 西安电子科技大学广州研究院
IPC: G06F16/535 , G06F16/538 , G06F16/583 , G06F40/30 , G10L15/26
Abstract: 本申请涉及视觉定位技术领域,公开了一种基于意图识别的结构化视觉定位方法、系统及设备,包括:获取待定位图像和用户的当前语音指令;将所述当前语音指令输入预先训练好的意图识别模型进行语义结构化处理,以构建语义拓扑图;其中,所述语义拓扑图用于描述所述当前语音指令对应的目标结构化数据;基于所述语义拓扑图进行推理,得到所述当前语音指令对应的语义指代;对所述语义指代和所述待定位图像进行特征对齐,以在所述待定位图像中定位与所述语义指代匹配的目标对象。本申请通过对语音指令的语义结构化处理,能够对含有口语化语言指令的语义进行精准推理,从而大大提高了视觉定位系统的鲁棒性,有利于提高日常对话场景中的视觉定位效果。