弱监督音视频内容解析的双路层次化混合模型的训练方法

发明公开

CN115131700A 弱监督音视频内容解析的双路层次化混合模型的训练方法审中-实审

请登陆查看更多内容

专利标题： 弱监督音视频内容解析的双路层次化混合模型的训练方法
申请号： CN202210729782.7

申请日： 2022-06-24
公开(公告)号： CN115131700A

公开(公告)日： 2022-09-30
发明人: 徐行 , 蒋寻 , 陈智国 , 沈复民 , 宋井宽 , 申恒涛
申请人： 电子科技大学
申请人地址： 四川省成都市高新区(西区)西源大道2006号
专利权人： 电子科技大学
当前专利权人： 电子科技大学
当前专利权人地址： 四川省成都市高新区(西区)西源大道2006号
代理机构： 电子科技大学专利中心
代理商 曾磊
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V40/20 ; G06V10/774 ; G06V10/776 ; G06V10/80 ; G06V10/82 ; G06V10/764 ; G06N3/04 ; G06N3/08 ; G10L25/27 ; G10L25/48

摘要：

本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络，该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注；然后利用得到的不完全准确的音频标注和视频标注，协同训练模态引导网络和层次化上下文建模网络；通过上述训练方法，可以得到具有较强模态分辨能力的上下文层次化建模网络，较好地对音视频进行内容解析；模态引导网络强化了模态区分能力；本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务，进一步提高了模型对不同模态的适应和理解能力。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）