开放式问答及多模态大模型的训练方法、装置及相关设备

    公开(公告)号:CN117235232A

    公开(公告)日:2023-12-15

    申请号:CN202311377895.6

    申请日:2023-10-23

    摘要: 本申请公开了一种开放式问答及多模态大模型的训练方法、装置及相关设备,为了促使多模态大模型关注到空间信息,在预训练阶段针对训练图像生成了匹配的带有空间信息的图像描述文本,空间信息用于表示训练图像中包含的对象在训练图像中的空间位置,采用训练图像及上述添加有显性的对象空间信息的图像描述文本对多模态大模型进行预训练,可以使得多模态大模型在学习图像和内容描述文本的语义对齐关系的基础上,进一步关注到图像中对象的空间位置,也即使得多模态大模型具备检测物体空间位置的能力。在此基础上,当将多模态大模型应用于开放式问答任务,在回答与空间排布相关问题时能够基于掌握的能力准确给出正确回答。

    开放式问答方法、装置及相关设备

    公开(公告)号:CN117725168A

    公开(公告)日:2024-03-19

    申请号:CN202311381504.8

    申请日:2023-10-23

    IPC分类号: G06F16/332 G06V20/62 G06T9/00

    摘要: 本申请公开了一种开放式问答方法、装置及相关设备,多模态大模型包括图像编码模块和大语言模型,在回答与目标图像相关的问题文本时,可以调用文本识别算法对目标图像进行文本识别,得到文本识别结果,可以通过大语言模型得到该文本识别结果的特征表示,进一步,大语言模型在解码答案文本时其输入除了包含传统的问题文本的特征表示及训练图像的特征表示之外,额外增加了对目标图像的文本识别结果的特征表示,使得大语言模型可以关注到目标图像中文本内容及其位置信息,如此可以使得多模态大模型具备文字空间感知能力,因而在回答与文字空间排布相关问题时能够基于掌握的对文字的空间感知能力准确给出正确回答。

    地标识别方法、装置、电子设备和存储介质

    公开(公告)号:CN118733794A

    公开(公告)日:2024-10-01

    申请号:CN202410847926.8

    申请日:2024-06-27

    摘要: 本发明提供一种地标识别方法、装置、电子设备和存储介质,其中方法包括:在接收到用户输入的针对待查询地标的语音问题时,基于车外摄像头,采集多张车外图像;将语音问题转换为文本,并对车外图像进行特征提取,得到图像特征;将图像特征和文本进行拼接,得到拼接结果,并将拼接结果输入至地标识别模型,得到地标识别模型输出的针对语音问题的回答,地标识别模型基于拼接结果,确定待查询地标的检索标识,应用检索标识从周边地图数据库中检索得到待查询地标的详细信息,并基于拼接结果和详细信息,生成回答。本发明提供了便捷和直观的地标查询方式,用户可以通过语音针对待查询地标进行自由提问,即可获得地标的相关信息,提升了用户体验。