- 专利标题: 视频语言任务执行及其模型训练方法、装置、设备、介质
-
申请号: CN202410270242.6申请日: 2024-03-11
-
公开(公告)号: CN117876940B公开(公告)日: 2024-05-31
- 发明人: 金良 , 赵雅倩 , 闫瑞栋 , 范宝余 , 郭振华 , 尹云峰
- 申请人: 浪潮电子信息产业股份有限公司
- 申请人地址: 山东省济南市高新区草山岭南路801号9层东侧
- 专利权人: 浪潮电子信息产业股份有限公司
- 当前专利权人: 浪潮电子信息产业股份有限公司
- 当前专利权人地址: 山东省济南市高新区草山岭南路801号9层东侧
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 张志梅
- 主分类号: G06V20/40
- IPC分类号: G06V20/40 ; G06V10/82 ; G06N3/0499 ; G06N3/08
摘要:
本发明公开了一种视频语言任务执行及其模型训练方法、装置、设备、介质,应用于视频理解技术领域。其中,方法包括将具有文本标签的视频样本、待学习视频参数和待学习帧参数输入至视频语言模型,视觉语言预训练模型提取视觉特征和参数特征,视频帧适配器基于待学习帧参数,将视觉特征转换为满足视觉语言预训练模型需求的帧视觉信息,视频适配器基于待学习视频参数提取视频视觉信息;根据帧视觉信息、视频视觉信息与文本语义特征之间损失信息,对视频语言模型进行迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术视频语言模型收敛慢,训练耗时耗资源的问题,能够有效提升视频语言模型的训练效率,节省模型训练所需的计算资源。
公开/授权文献
- CN117876940A 视频语言任务执行及其模型训练方法、装置、设备、介质 公开/授权日:2024-04-12