一种基于自监督课程学习的语音和视觉关联性增强方法

    公开(公告)号:CN112465008A

    公开(公告)日:2021-03-09

    申请号:CN202011338294.0

    申请日:2020-11-25

    摘要: 本发明公开了一种基于自监督课程学习的语音和视觉关联性增强方法,涉及多模态的语音和视觉特征表征学习领域。该方法利用对比学习,在teacher‑student框架下提出一种自监督课程学习语音和视觉关联性增强方法,可以保证在无需人工标注的视频数据集上进行训练,以获取高效的语音和视觉表征,并应用于下游任务中。具体地,本发明提出一种两阶段的学习方法来进行语音和视频帧序列对对比学习,以克服直接进行teacher‑student迁移学习的困难性;其次,利用语音和视觉信息的关联性作为潜在自监督信号进行对比迁移训练。本发明获取的语音和视觉卷积网络可弥补下游任务数据集不足而导致的训练困难问题。