音视频内容解析方法及装置

Invention Publication

Please log in to see more content

Patent Title: 音视频内容解析方法及装置
Application No.: CN202311228160.7

Application Date: 2023-09-21
Publication No.: CN117274866A

Publication Date: 2023-12-22
Inventor: 蒋寻 , 朱利卿 , 徐行 , 汪政 , 杨阳
Applicant: 电子科技大学 , 电子科技大学广东电子信息工程研究院
Applicant Address: 四川省成都市高新西区高新区(西区)西源大道2006号
Assignee: 电子科技大学,电子科技大学广东电子信息工程研究院
Current Assignee: 电子科技大学,电子科技大学广东电子信息工程研究院
Current Assignee Address: 四川省成都市高新西区高新区(西区)西源大道2006号
Agency: 北京超凡宏宇知识产权代理有限公司
Agent 杜杨
Main IPC: G06V20/40
IPC: G06V20/40 ; G06V10/80 ; G06V10/82 ; G06N3/045 ; G06N3/0464 ; G06N3/0499 ; G06N3/084 ; G06N3/0895

Abstract:

本发明实施例提出一种音视频内容解析方法及装置，属于深度学习领域，对待解析音视频进行拆分、特征提取和特征融合，得到综合视觉特征和听觉特征，将听觉特征和综合视觉特征输入采用弱监督学习进行优化训练得到的解析算法，通过该解析算法，对听觉特征和综合视觉特征进行关于模态的建模和感知预测，得到待解析音视频中含有的动作事件以及每个动作事件所属的类别和模态。本申请的解析算法提出模态感知模块和时序感知模块，以能协同模态和时序进行证据挖掘，从而极大地减少模型对模态分类时产生的伪标签噪声的敏感性，提升模态依赖判定的鲁棒性和时序标注的准确性，并克服弱监督设置下时序标注缺失带来的不确定性问题。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）