视频语言任务执行及其模型训练方法、装置、设备、介质

发明授权

CN117876940B 视频语言任务执行及其模型训练方法、装置、设备、介质有权

请登陆查看更多内容

专利标题： 视频语言任务执行及其模型训练方法、装置、设备、介质
申请号： CN202410270242.6

申请日： 2024-03-11
公开(公告)号： CN117876940B

公开(公告)日： 2024-05-31
发明人: 金良 , 赵雅倩 , 闫瑞栋 , 范宝余 , 郭振华 , 尹云峰
申请人： 浪潮电子信息产业股份有限公司
申请人地址： 山东省济南市高新区草山岭南路801号9层东侧
专利权人： 浪潮电子信息产业股份有限公司
当前专利权人： 浪潮电子信息产业股份有限公司
当前专利权人地址： 山东省济南市高新区草山岭南路801号9层东侧
代理机构： 北京集佳知识产权代理有限公司
代理商 张志梅
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V10/82 ; G06N3/0499 ; G06N3/08

摘要：

本发明公开了一种视频语言任务执行及其模型训练方法、装置、设备、介质，应用于视频理解技术领域。其中，方法包括将具有文本标签的视频样本、待学习视频参数和待学习帧参数输入至视频语言模型，视觉语言预训练模型提取视觉特征和参数特征，视频帧适配器基于待学习帧参数，将视觉特征转换为满足视觉语言预训练模型需求的帧视觉信息，视频适配器基于待学习视频参数提取视频视觉信息；根据帧视觉信息、视频视觉信息与文本语义特征之间损失信息，对视频语言模型进行迭代更新，直至满足预设模型训练结束条件。本发明可以解决相关技术视频语言模型收敛慢，训练耗时耗资源的问题，能够有效提升视频语言模型的训练效率，节省模型训练所需的计算资源。

公开/授权文献

CN117876940A 视频语言任务执行及其模型训练方法、装置、设备、介质公开/授权日：2024-04-12

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）