基于高效关系逼近算法的群体视频描述方法及系统

    公开(公告)号:CN116503771A

    公开(公告)日:2023-07-28

    申请号:CN202310052079.1

    申请日:2023-02-02

    摘要: 本发明公开了一种基于高效关系逼近算法的群体视频描述方法及系统,属于视频理解领域。包括:针对包含目标视频和参考视频的视频组,根据基于高效关系逼近的跨视频共享内容聚合模块,生成目标视频组共享特征和参考视频组共享特征;根据上下文精炼模块,输出参考视频中对于目标视频的补充信息,得到上下文特征。利用解码网络对共享特征和上下文特征的拼接结果进行解码,输出针对于目标视频组的描述文本。本发明能够生成针对群体视频共享内容的描述文本,采用一种新颖的高效关系逼近算法优化模型的时间复杂度到线性级别,并利用对比学习策略精炼上下文特征,有效地改善了模型性能。

    基于对比学习和词粒度权重的视觉语言翻译方法和系统

    公开(公告)号:CN116484885A

    公开(公告)日:2023-07-25

    申请号:CN202310461929.3

    申请日:2023-04-26

    摘要: 本发明公开了一种基于对比学习和词粒度权重的视觉语言翻译方法和系统,属于时序对齐的视觉语言翻译领域。提取源域的唇语或指语视频嵌入特征和文本嵌入特征;先对视频嵌入特征进行编码,再通过多头注意力机制与文本嵌入特征交互,解码生成字词概率分布,基于任务的交叉熵损失函数项初步训练;根据解码的注意力向量,计算字词的词粒度多样性权重;将源域随机划分为元训练集和元测试集,采用对比限制的元学习训练策略,通过多样性感知权重控制模型的学习方向,训练具有泛化能力的编码器和解码器。利用训练好的视觉编码器和跨模态解码器完成对未见表达者的视觉语言翻译任务。本发明提高了对域外表达者的泛化能力,有效地改善了视觉语言翻译效果。