基于多模态提示协同的视觉巡检多任务学习方法

发明公开

CN118918447A 基于多模态提示协同的视觉巡检多任务学习方法审中-公开

请登陆查看更多内容

专利标题： 基于多模态提示协同的视觉巡检多任务学习方法
申请号： CN202411408471.6

申请日： 2024-10-10
公开(公告)号： CN118918447A

公开(公告)日： 2024-11-08
发明人: 孙伟 , 郝雨 , 罗沙 , 丁国成 , 王庆军 , 赵龙 , 史伟豪 , 邢璐 , 王潇 , 邹知炜 , 金雨楠
申请人： 国网安徽省电力有限公司电力科学研究院
申请人地址： 安徽省合肥市经济开发区紫云路299号
专利权人： 国网安徽省电力有限公司电力科学研究院
当前专利权人： 国网安徽省电力有限公司电力科学研究院
当前专利权人地址： 安徽省合肥市经济开发区紫云路299号
代理机构： 合肥市浩智运专利代理事务所
代理商 丁瑞瑞
主分类号： G06V10/82
IPC分类号： G06V10/82 ; G06N3/0455 ; G06N3/096 ; G06N3/098 ; G06V10/80

摘要：

本发明公开了基于多模态提示协同的视觉巡检多任务学习方法，以多模态提示协同多任务学习网络作为视觉‑语言模型实现视觉巡检多任务学习，所述多模态提示协同多任务学习网络包括语言提示编码器和视觉编码器，语言提示编码器包括并行的冻结语言编码器和语言编码器；冻结语言编码器，用于确保语言编码器的调整不大于阈值限度；语言编码器与视觉编码器通过耦合函数计算二者特征的余弦相似性衡量两个任务的相似程度，以最大限度地提高总相似性高的任务组的视觉和语言表征的一致性，实现视觉巡检多任务学习的高效联合训练。本发明提升视觉巡检多任务模型的调整效果，保证视觉巡检多任务学习方法的针对性和泛化性。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V10/00	图像或视频识别或理解的安排（图像或视频中的字符识别 G06V30/10）
G06V10/70	.使用模式识别或机器学习（光学模式识别或电子计算 G06V10/88）
G06V10/82	..使用神经网络