发明公开
- 专利标题: 弱监督音视频内容解析的双路层次化混合模型的训练方法
-
申请号: CN202210729782.7申请日: 2022-06-24
-
公开(公告)号: CN115131700A公开(公告)日: 2022-09-30
- 发明人: 徐行 , 蒋寻 , 陈智国 , 沈复民 , 宋井宽 , 申恒涛
- 申请人: 电子科技大学
- 申请人地址: 四川省成都市高新区(西区)西源大道2006号
- 专利权人: 电子科技大学
- 当前专利权人: 电子科技大学
- 当前专利权人地址: 四川省成都市高新区(西区)西源大道2006号
- 代理机构: 电子科技大学专利中心
- 代理商 曾磊
- 主分类号: G06V20/40
- IPC分类号: G06V20/40 ; G06V40/20 ; G06V10/774 ; G06V10/776 ; G06V10/80 ; G06V10/82 ; G06V10/764 ; G06N3/04 ; G06N3/08 ; G10L25/27 ; G10L25/48
摘要:
本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法,所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络,该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注;然后利用得到的不完全准确的音频标注和视频标注,协同训练模态引导网络和层次化上下文建模网络;通过上述训练方法,可以得到具有较强模态分辨能力的上下文层次化建模网络,较好地对音视频进行内容解析;模态引导网络强化了模态区分能力;本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务,进一步提高了模型对不同模态的适应和理解能力。