发明公开
- 专利标题: 音视频内容解析方法及装置
-
申请号: CN202311228160.7申请日: 2023-09-21
-
公开(公告)号: CN117274866A公开(公告)日: 2023-12-22
- 发明人: 蒋寻 , 朱利卿 , 徐行 , 汪政 , 杨阳
- 申请人: 电子科技大学 , 电子科技大学广东电子信息工程研究院
- 申请人地址: 四川省成都市高新西区高新区(西区)西源大道2006号
- 专利权人: 电子科技大学,电子科技大学广东电子信息工程研究院
- 当前专利权人: 电子科技大学,电子科技大学广东电子信息工程研究院
- 当前专利权人地址: 四川省成都市高新西区高新区(西区)西源大道2006号
- 代理机构: 北京超凡宏宇知识产权代理有限公司
- 代理商 杜杨
- 主分类号: G06V20/40
- IPC分类号: G06V20/40 ; G06V10/80 ; G06V10/82 ; G06N3/045 ; G06N3/0464 ; G06N3/0499 ; G06N3/084 ; G06N3/0895
摘要:
本发明实施例提出一种音视频内容解析方法及装置,属于深度学习领域,对待解析音视频进行拆分、特征提取和特征融合,得到综合视觉特征和听觉特征,将听觉特征和综合视觉特征输入采用弱监督学习进行优化训练得到的解析算法,通过该解析算法,对听觉特征和综合视觉特征进行关于模态的建模和感知预测,得到待解析音视频中含有的动作事件以及每个动作事件所属的类别和模态。本申请的解析算法提出模态感知模块和时序感知模块,以能协同模态和时序进行证据挖掘,从而极大地减少模型对模态分类时产生的伪标签噪声的敏感性,提升模态依赖判定的鲁棒性和时序标注的准确性,并克服弱监督设置下时序标注缺失带来的不确定性问题。