一种实现端到端多任务的方法、系统、设备和存储介质

发明公开

CN117746393A 一种实现端到端多任务的方法、系统、设备和存储介质审中-实审

请登陆查看更多内容

专利标题： 一种实现端到端多任务的方法、系统、设备和存储介质
申请号： CN202311814923.6

申请日： 2023-12-27
公开(公告)号： CN117746393A

公开(公告)日： 2024-03-22
发明人: 王金波 , 郭振华 , 芮建秋 , 刘俊 , 沈彧 , 夏建文 , 王佳利 , 张令军
申请人： 苏州市大数据集团有限公司 , 天翼交通科技有限公司 , 先导(苏州)数字产业投资有限公司 , 苏州智能交通信息科技股份有限公司
申请人地址： 江苏省苏州市相城区蠡塘河路900号3102室; ; ;
专利权人： 苏州市大数据集团有限公司,天翼交通科技有限公司,先导(苏州)数字产业投资有限公司,苏州智能交通信息科技股份有限公司
当前专利权人： 苏州市大数据集团有限公司,天翼交通科技有限公司,先导(苏州)数字产业投资有限公司,苏州智能交通信息科技股份有限公司
当前专利权人地址： 江苏省苏州市相城区蠡塘河路900号3102室; ; ;
代理机构： 苏州创元专利商标事务所有限公司
代理商 范晴
主分类号： G06V20/58
IPC分类号： G06V20/58 ; G06V20/56 ; G06V10/44 ; G06V10/80 ; G06V10/764 ; G06V10/82 ; G06N3/0455 ; G06N3/08 ; G06N5/04

摘要：

本发明提供一种实现端到端多任务的方法、系统、设备和存储介质，方法包括：使用图文预训练模型对任务图像进行编码得到包括整张图像特征的第一向量；对所述任务图像进行预处理，并使用自注意力模型对预处理后的任务图像进行计算得到图像块之间具有关联性的第二向量；将所述第一向量和所述第二向量进行拼接得到图像融合特征；以及对所述图像融合特征进行编码和解码后输出到多个任务分支进行任务处理。本发明通过图文预训练模型进行多模态预训练，提高了模型在多分类、目标检测、语义分割和实例分割中的的鲁棒性；提高了模型的推理速度，降低了模型部署的复杂度和对硬件设备的要求。

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/50	.图像的上下文或环境
G06V20/56	..通过使用安装在车辆上的传感器实现车辆外观
G06V20/58	...识别移动物体或障碍物，例如车辆或行人；识别交通对象，例如交通标志、交通灯或道路