发明公开
- 专利标题: 一种文本引导的视频时序动作分割方法、设备及存储介质
-
申请号: CN202410568280.X申请日: 2024-05-09
-
公开(公告)号: CN118334558A公开(公告)日: 2024-07-12
- 发明人: 王利民 , 李笑天 , 武港山
- 申请人: 南京大学
- 申请人地址: 江苏省南京市鼓楼区汉口路22号
- 专利权人: 南京大学
- 当前专利权人: 南京大学
- 当前专利权人地址: 江苏省南京市鼓楼区汉口路22号
- 代理机构: 南京天翼专利代理有限责任公司
- 代理商 奚铭
- 主分类号: G06V20/40
- IPC分类号: G06V20/40 ; G06V40/20 ; G06V10/62 ; G06V10/82 ; G06V10/774 ; G06V30/19 ; G06N3/0464
摘要:
一种文本引导的视频时序动作分割方法、设备及存储介质,构建一个文本引导的视频时序动作分割模型,包括视频片段编码器、文本编码器、时序骨干网络和分类网络,首先由视频片段编码器提取视频片段特征,经时序骨干网络得到包含全局信息的时序特征,同时文本编码器对起始动作和终止动作的语言描述提取文本特征,将时序特征与文本特征进行时序上的模态对齐,以实现文本特征引导时序动作的分割,同时为了进一步缓解背景干扰带来的过分割问题,将时序特征进行时序上的可学习局部平滑,最后对得到的时序特征由分类得到分割结果。本发明通过标注文本引导的视频时序动作分割框架,增强了对于视频时序特征的约束,改善在强背景干扰下的分割性能。