-
公开(公告)号:CN118966387B
公开(公告)日:2025-03-11
申请号:CN202411463649.7
申请日:2024-10-21
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N20/00 , G06F18/10 , G06V10/82 , G06N3/0985 , G06N3/0455
Abstract: 本发明公开了一种基于多模态的对比解码幻觉减轻方法、装置及终端,方法包括:获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词;将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型;对所述初始输出和所述幻觉输出进行对比解码,得到目标输出。本发明通过添加多模态的噪声,并将其与初始输出进行对比,从而校准模型的预测,减少生产错误信息的可能性。
-
公开(公告)号:CN118966387A
公开(公告)日:2024-11-15
申请号:CN202411463649.7
申请日:2024-10-21
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06N20/00 , G06F18/10 , G06V10/82 , G06N3/0985 , G06N3/0455
Abstract: 本发明公开了一种基于多模态的对比解码幻觉减轻方法、装置及终端,方法包括:获取目标初始数据,对所述目标初始数据进行多模态扰动处理,得到目标扰动数据,所述目标初始数据包括目标高清图像及其对应的目标文本提示词;将所述目标初始数据和所述目标扰动数据输入至目标模型,得到初始输出和幻觉输出,所述目标模型为大型视觉语言模型;对所述初始输出和所述幻觉输出进行对比解码,得到目标输出。本发明通过添加多模态的噪声,并将其与初始输出进行对比,从而校准模型的预测,减少生产错误信息的可能性。
-
公开(公告)号:CN113807330B
公开(公告)日:2022-03-08
申请号:CN202111372548.5
申请日:2021-11-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06V40/16 , G06V10/80 , G06V10/774 , G06V10/764 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种面向资源受限场景的三维视线估计方法及装置,方法包括:构建端到端的视线估计网络,同时进行人脸检测和视线估计,并且采用多任务学习同时对两种数据集进行采样,不同数据训练不同分支;将收集的人脸检测数据集和视线估计数据集进行融合训练,使端到端的视线估计网络同时适应这两种不同的数据域,并采用多任务学习方式训练该网络,得到训练好的模型;对训练好的模型进行压缩以及量化处理,从而使得训练好的模型能部署在边缘设备上,实现三维实现的实时估计。本发明使用端到端的方法,避免对图像进行多次特征提取,提高了运行速度并支持实时视线估计;本发明采用轻量级模型并进行模型压缩,使模型可以在资源受限场景运行。
-
公开(公告)号:CN113807330A
公开(公告)日:2021-12-17
申请号:CN202111372548.5
申请日:2021-11-19
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
Abstract: 本发明公开了一种面向资源受限场景的三维视线估计方法及装置,方法包括:构建端到端的视线估计网络,同时进行人脸检测和视线估计,并且采用多任务学习同时对两种数据集进行采样,不同数据训练不同分支;将收集的人脸检测数据集和视线估计数据集进行融合训练,使端到端的视线估计网络同时适应这两种不同的数据域,并采用多任务学习方式训练该网络,得到训练好的模型;对训练好的模型进行压缩以及量化处理,从而使得训练好的模型能部署在边缘设备上,实现三维实现的实时估计。本发明使用端到端的方法,避免对图像进行多次特征提取,提高了运行速度并支持实时视线估计;本发明采用轻量级模型并进行模型压缩,使模型可以在资源受限场景运行。
-
-
-