弱监督音视频内容解析的双路层次化混合模型的训练方法
摘要:
本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络,该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注;然后利用得到的不完全准确的音频标注和视频标注,协同训练模态引导网络和层次化上下文建模网络;通过上述训练方法,可以得到具有较强模态分辨能力的上下文层次化建模网络,较好地对音视频进行内容解析;模态引导网络强化了模态区分能力;本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务,进一步提高了模型对不同模态的适应和理解能力。
0/0