多模态图像标注方法、装置、电子设备及存储介质
摘要:
本发明提供了一种多模态图像标注方法、装置、电子设备及存储介质,应用于图像处理及深度学习技术领域。该方法包括:对不同格式的多模态图像进行预处理,得到音频数据和视频数据;对音频数据进行特征提取,得到音频特征数据;对视频数据进行特征提取,得到对象融合特征数据;基于第一神经网络模型,对音频特征数据进行处理,得到与音频特征数据对应的目标对象;基于第二神经网络模型,对对象融合特征数据进行处理,得到目标对象的情绪特征数据;根据目标对象和情绪特征数据,对多模态图像进行标注,得到标注结果;将标注结果、音频特征数据和对象融合特征数据进行可视化处理,以便标注人员对与多模态图像对应的标注结果进行调整。
0/0