发明公开
- 专利标题: 多模态图像标注方法、装置、电子设备及存储介质
-
申请号: CN202311824771.8申请日: 2023-12-28
-
公开(公告)号: CN117473304A公开(公告)日: 2024-01-30
- 发明人: 杜铭浩 , 刘爽 , 明东 , 张文荃 , 孙宁 , 张露丹 , 方鹏
- 申请人: 天津大学
- 申请人地址: 天津市南开区卫津路92号
- 专利权人: 天津大学
- 当前专利权人: 天津大学
- 当前专利权人地址: 天津市南开区卫津路92号
- 代理机构: 中科专利商标代理有限责任公司
- 代理商 郭梦雅
- 主分类号: G06F18/213
- IPC分类号: G06F18/213 ; G06N3/0442 ; G06N3/045 ; G06N3/08 ; G06V10/764 ; G06V10/82 ; G06V40/16 ; G06F16/65 ; G06F16/683 ; G06F16/75 ; G06F16/783 ; G06F18/24 ; G06F18/25
摘要:
本发明提供了一种多模态图像标注方法、装置、电子设备及存储介质,应用于图像处理及深度学习技术领域。该方法包括:对不同格式的多模态图像进行预处理,得到音频数据和视频数据;对音频数据进行特征提取,得到音频特征数据;对视频数据进行特征提取,得到对象融合特征数据;基于第一神经网络模型,对音频特征数据进行处理,得到与音频特征数据对应的目标对象;基于第二神经网络模型,对对象融合特征数据进行处理,得到目标对象的情绪特征数据;根据目标对象和情绪特征数据,对多模态图像进行标注,得到标注结果;将标注结果、音频特征数据和对象融合特征数据进行可视化处理,以便标注人员对与多模态图像对应的标注结果进行调整。