视频语言任务执行及其模型训练方法、装置、设备、介质
摘要:
本发明公开了一种视频语言任务执行及其模型训练方法、装置、设备、介质,应用于视频理解技术领域。其中,方法包括将具有文本标签的视频样本、待学习视频参数和待学习帧参数输入至视频语言模型,视觉语言预训练模型提取视觉特征和参数特征,视频帧适配器基于待学习帧参数,将视觉特征转换为满足视觉语言预训练模型需求的帧视觉信息,视频适配器基于待学习视频参数提取视频视觉信息;根据帧视觉信息、视频视觉信息与文本语义特征之间损失信息,对视频语言模型进行迭代更新,直至满足预设模型训练结束条件。本发明可以解决相关技术视频语言模型收敛慢,训练耗时耗资源的问题,能够有效提升视频语言模型的训练效率,节省模型训练所需的计算资源。
0/0