-
公开(公告)号:CN119941989A
公开(公告)日:2025-05-06
申请号:CN202510009870.3
申请日:2025-01-03
Applicant: 鹏城实验室
Abstract: 本发明公开了一种基于大语言模型的语义三维场景理解方法、装置、设备及存储介质,该方法包括:采集室内场景的多角度图片,并对多角度图片进行处理,获得多角度图片对应的三维高斯椭球和图像语义文本;将图像语义文本输入至预设大语言模型进行常识性训练,并基于训练结果预测室内场景类型获得对应的高级语义;将图像语义文本和高级语义压缩后嵌入三维高斯椭球,获得目标三维高斯椭球;基于目标三维高斯椭球,通过可微分渲染端到端训练对室内场景对应的3D模型进行参数优化,形成嵌入语义信息的3D场景表示,以构建从局部物体到全局场景的深层次场景理解,相比于现有技术,本发明有效提升了机器人系统在复杂环境中的场景理解和交互能力。