多模态信号内容分析方法、装置、电子设备及存储介质
摘要:
本申请公开了一种多模态信号内容分析方法、装置、电子设备及存储介质。该多模态信号内容分析方法包括:获取音频‑视频信号对应的字幕词嵌入特征;利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;基于所述字幕代理特征生成字幕。本申请实施例提供的多模态信号内容分析方法,利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征,基于字幕代理特征生成字幕,避免了由于字幕语义差异性对训练的影响,生成的字幕能够更好地描述音频‑视频信号的内容,克服了相关技术中没有考虑字幕差异性对音频‑视频字幕任务的影响所导致的不良影响。
0/0