一种文本引导的视频时序动作分割方法、设备及存储介质
摘要:
一种文本引导的视频时序动作分割方法、设备及存储介质,构建一个文本引导的视频时序动作分割模型,包括视频片段编码器、文本编码器、时序骨干网络和分类网络,首先由视频片段编码器提取视频片段特征,经时序骨干网络得到包含全局信息的时序特征,同时文本编码器对起始动作和终止动作的语言描述提取文本特征,将时序特征与文本特征进行时序上的模态对齐,以实现文本特征引导时序动作的分割,同时为了进一步缓解背景干扰带来的过分割问题,将时序特征进行时序上的可学习局部平滑,最后对得到的时序特征由分类得到分割结果。本发明通过标注文本引导的视频时序动作分割框架,增强了对于视频时序特征的约束,改善在强背景干扰下的分割性能。
0/0