- 专利标题: 一种视频事件定位与识别方法、装置及存储介质
-
申请号: CN202211619599.8申请日: 2022-12-16
-
公开(公告)号: CN115620110B公开(公告)日: 2023-03-21
- 发明人: 谭明奎 , 徐浩明 , 吉冬昱 , 杜卿 , 胡灏 , 李利
- 申请人: 华南理工大学 , 广东广物互联网科技有限公司
- 申请人地址: 广东省广州市天河区五山路381号;
- 专利权人: 华南理工大学,广东广物互联网科技有限公司
- 当前专利权人: 华南理工大学,广东广物互联网科技有限公司
- 当前专利权人地址: 广东省广州市天河区五山路381号;
- 代理机构: 广州嘉权专利商标事务所有限公司
- 代理商 郑宏谋
- 主分类号: G06V10/80
- IPC分类号: G06V10/80 ; G06V10/764 ; G06V10/77 ; G06V20/40 ; G06V10/82 ; G06N3/047 ; G06N3/048 ; G06N3/0464 ; G10L25/30 ; G10L25/51
摘要:
本发明公开了一种视频事件定位与识别方法、装置及存储介质,其中方法包括:获取同步的视频数据和音频数据;提取视觉特征和音频特征;利用声音引导的视觉注意力机制模块和视觉引导的声音注意力机制模块进行特征增强;将增强的特征输入跨模态关系感知模块,进行建模以及利用音视频模态内和模态间的关系,实现模态间的信息互补,增强特征表达能力,输出事件定位和识别的结果。本发明有效地建模和利用了音视频模态内和模态间的关系,实现跨模态信息互相补充,具有更强的表征能力;同时,能够有效缓解复杂视频背景和音频无关声音带来的干扰,因而事件的定位和识别的准确度更高。本发明可广泛应用于智能识别技术领域。
公开/授权文献
- CN115620110A 一种视频事件定位与识别方法、装置及存储介质 公开/授权日:2023-01-17