Patent search ap:("哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)") AND inv:"蒋遇" Page 1

1.

发明授权
一种基于多模态的对比解码幻觉减轻方法、装置及终端有权

公开(公告)号：CN118966387B

公开(公告)日：2025-03-11

申请号：CN202411463649.7

申请日：2024-10-21

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 漆舒汉 , 蒋遇 , 王强 , 张加佳 , 王轩

IPC: G06N20/00 , G06F18/10 , G06V10/82 , G06N3/0985 , G06N3/0455

Abstract: 本发明公开了一种基于多模态的对比解码幻觉减轻方法、装置及终端，方法包括：获取目标初始数据，对所述目标初始数据进行多模态扰动处理，得到目标扰动数据，所述目标初始数据包括目标高清图像及其对应的目标文本提示词；将所述目标初始数据和所述目标扰动数据输入至目标模型，得到初始输出和幻觉输出，所述目标模型为大型视觉语言模型；对所述初始输出和所述幻觉输出进行对比解码，得到目标输出。本发明通过添加多模态的噪声，并将其与初始输出进行对比，从而校准模型的预测，减少生产错误信息的可能性。

2.

发明公开
一种基于多模态的对比解码幻觉减轻方法、装置及终端有权

公开(公告)号：CN118966387A

公开(公告)日：2024-11-15

申请号：CN202411463649.7

申请日：2024-10-21

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 漆舒汉 , 蒋遇 , 王强 , 张加佳 , 王轩

IPC: G06N20/00 , G06F18/10 , G06V10/82 , G06N3/0985 , G06N3/0455

Abstract: 本发明公开了一种基于多模态的对比解码幻觉减轻方法、装置及终端，方法包括：获取目标初始数据，对所述目标初始数据进行多模态扰动处理，得到目标扰动数据，所述目标初始数据包括目标高清图像及其对应的目标文本提示词；将所述目标初始数据和所述目标扰动数据输入至目标模型，得到初始输出和幻觉输出，所述目标模型为大型视觉语言模型；对所述初始输出和所述幻觉输出进行对比解码，得到目标输出。本发明通过添加多模态的噪声，并将其与初始输出进行对比，从而校准模型的预测，减少生产错误信息的可能性。

3.

发明授权
面向资源受限场景的三维视线估计方法及装置有权

公开(公告)号：CN113807330B

公开(公告)日：2022-03-08

申请号：CN202111372548.5

申请日：2021-11-19

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 漆舒汉 , 王轩 , 张加佳 , 蒋遇 , 刘洋 , 罗文坚 , 高翠芸 , 廖清 , 蒋琳 , 吴卓

IPC: G06V40/16 , G06V10/80 , G06V10/774 , G06V10/764 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种面向资源受限场景的三维视线估计方法及装置，方法包括：构建端到端的视线估计网络，同时进行人脸检测和视线估计，并且采用多任务学习同时对两种数据集进行采样，不同数据训练不同分支；将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端的视线估计网络同时适应这两种不同的数据域，并采用多任务学习方式训练该网络，得到训练好的模型；对训练好的模型进行压缩以及量化处理，从而使得训练好的模型能部署在边缘设备上，实现三维实现的实时估计。本发明使用端到端的方法，避免对图像进行多次特征提取，提高了运行速度并支持实时视线估计；本发明采用轻量级模型并进行模型压缩，使模型可以在资源受限场景运行。

4.

发明公开
面向资源受限场景的三维视线估计方法及装置有权

公开(公告)号：CN113807330A

公开(公告)日：2021-12-17

申请号：CN202111372548.5

申请日：2021-11-19

Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)

Inventor： 漆舒汉 , 王轩 , 张加佳 , 蒋遇 , 刘洋 , 罗文坚 , 高翠芸 , 廖清 , 蒋琳 , 吴卓

IPC: G06K9/00 , G06K9/62 , G06N3/04 , G06N3/08

Abstract: 本发明公开了一种面向资源受限场景的三维视线估计方法及装置，方法包括：构建端到端的视线估计网络，同时进行人脸检测和视线估计，并且采用多任务学习同时对两种数据集进行采样，不同数据训练不同分支；将收集的人脸检测数据集和视线估计数据集进行融合训练，使端到端的视线估计网络同时适应这两种不同的数据域，并采用多任务学习方式训练该网络，得到训练好的模型；对训练好的模型进行压缩以及量化处理，从而使得训练好的模型能部署在边缘设备上，实现三维实现的实时估计。本发明使用端到端的方法，避免对图像进行多次特征提取，提高了运行速度并支持实时视线估计；本发明采用轻量级模型并进行模型压缩，使模型可以在资源受限场景运行。

Patent Agency Ranking