一种基于交叉融合和重建的多模态生成式摘要获取方法
摘要:
一种基于交叉融合和重建的多模态生成式摘要获取方法,从多模态摘要数据集中提取文本特征序列和视频特征序列,使用文本和视频指导下交叉融合模块,分别将一种模态的特征序列作为指导模态映射为查询特征,另一种模态的特征序列作为目标模态映射为键值对特征,捕捉模态间相关性高于设定值的一致性语义;经过迭代融合,生成文本和视频指导下多模态融合表示;使用文本和视频重建器得到文本和视频重建特征序列,并计算文本和视频重建损失;使用摘要生成器进行两层融合操作,输出摘要分布,并计算与参考摘要的生成损失;根据各损失,对各组件分别使用不同的损失函数组合,加强对模态间一致性和模态内互补语义的约束效果,提升生成摘要的准确性和丰富性。
0/0