一种文本引导的视频时序动作分割方法、设备及存储介质

发明公开

CN118334558A 一种文本引导的视频时序动作分割方法、设备及存储介质审中-实审

请登陆查看更多内容

专利标题： 一种文本引导的视频时序动作分割方法、设备及存储介质
申请号： CN202410568280.X

申请日： 2024-05-09
公开(公告)号： CN118334558A

公开(公告)日： 2024-07-12
发明人: 王利民 , 李笑天 , 武港山
申请人： 南京大学
申请人地址： 江苏省南京市鼓楼区汉口路22号
专利权人： 南京大学
当前专利权人： 南京大学
当前专利权人地址： 江苏省南京市鼓楼区汉口路22号
代理机构： 南京天翼专利代理有限责任公司
代理商 奚铭
主分类号： G06V20/40
IPC分类号： G06V20/40 ; G06V40/20 ; G06V10/62 ; G06V10/82 ; G06V10/774 ; G06V30/19 ; G06N3/0464

摘要：

一种文本引导的视频时序动作分割方法、设备及存储介质，构建一个文本引导的视频时序动作分割模型，包括视频片段编码器、文本编码器、时序骨干网络和分类网络，首先由视频片段编码器提取视频片段特征，经时序骨干网络得到包含全局信息的时序特征，同时文本编码器对起始动作和终止动作的语言描述提取文本特征，将时序特征与文本特征进行时序上的模态对齐，以实现文本特征引导时序动作的分割，同时为了进一步缓解背景干扰带来的过分割问题，将时序特征进行时序上的可学习局部平滑，最后对得到的时序特征由分类得到分割结果。本发明通过标注文本引导的视频时序动作分割框架，增强了对于视频时序特征的约束，改善在强背景干扰下的分割性能。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）