音视频内容解析方法及装置
摘要:
本发明实施例提出一种音视频内容解析方法及装置,属于深度学习领域,对待解析音视频进行拆分、特征提取和特征融合,得到综合视觉特征和听觉特征,将听觉特征和综合视觉特征输入采用弱监督学习进行优化训练得到的解析算法,通过该解析算法,对听觉特征和综合视觉特征进行关于模态的建模和感知预测,得到待解析音视频中含有的动作事件以及每个动作事件所属的类别和模态。本申请的解析算法提出模态感知模块和时序感知模块,以能协同模态和时序进行证据挖掘,从而极大地减少模型对模态分类时产生的伪标签噪声的敏感性,提升模态依赖判定的鲁棒性和时序标注的准确性,并克服弱监督设置下时序标注缺失带来的不确定性问题。
0/0