图像识别方法、装置、设备及存储介质

    公开(公告)号:CN110866489A

    公开(公告)日:2020-03-06

    申请号:CN201911104993.6

    申请日:2019-11-07

    IPC分类号: G06K9/00 G06K9/62

    摘要: 本申请实施例提供了一种图像识别方法、装置、设备及存储介质,其中,方法包括:对至少两帧图像中的每一帧进行特征提取,得到每一帧的特征数据;对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理,得到第一处理结果;对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理,得到第二处理结果;根据每一帧图像的第一处理结果和第二处理结果,确定与所述至少两帧图像对应的识别结果。通过本申请,能够减小对特征数据进行卷积处理的计算复杂度,并且,还能够保证对图像的特征数据进行有效的时空建模。

    一种图像处理方法、装置、电子设置以及存储介质

    公开(公告)号:CN110570375A

    公开(公告)日:2019-12-13

    申请号:CN201910842646.7

    申请日:2019-09-06

    IPC分类号: G06T5/00

    摘要: 本申请实施例公开了一种图像处理方法、装置、电子设置以及存储介质,本申请属于人工智能领域,方法包括:获取原始模糊图像,获取去模糊生成模型;模糊生成模型包括顶部卷积层、第一卷积层和第二卷积层;基于顶部卷积层中的卷积函数,对原始模糊图像进行卷积,得到输入模糊图像编码特征;基于第一卷积层中的卷积函数和激活函数,对输入模糊图像编码特征进行卷积,得到第一模糊图像编码特征;将输入模糊图像编码特征和第一模糊图像编码特征叠加为第二模糊图像编码特征;基于第二卷积层中的卷积函数和激活函数,对第二模糊图像编码特征进行卷积,得到与原始模糊图像对应的目标清晰图像。采用本申请,可以提高将模糊图像去模糊的效率。

    一种图像生成方法、装置以及存储介质

    公开(公告)号:CN110555896A

    公开(公告)日:2019-12-10

    申请号:CN201910837251.8

    申请日:2019-09-05

    IPC分类号: G06T11/60

    摘要: 本申请实施例公开了一种图像生成方法、装置以及相关设备,本申请属于人工智能领域,方法包括:获取原始图像中的目标对象的关键数据;基于关键部位调整信息调整所述关键数据,根据调整后的关键数据生成调整对象特征;获取图像风格信息,生成所述图像风格信息对应的风格特征;融合所述调整对象特征和所述风格特征,得到目标特征,在图像生成模型中,基于所述目标特征输出与所述关键部位调整信息和所述图像风格信息相关联的目标图像。采用本申请,可以提高图像处理的效率。

    延时摄影视频的生成方法及设备

    公开(公告)号:CN110555527A

    公开(公告)日:2019-12-10

    申请号:CN201910853402.9

    申请日:2018-03-26

    发明人: 罗文寒 马林 刘威

    IPC分类号: G06N3/08

    摘要: 本发明公开一种延时摄影视频的生成方法及设备。该方案涉及人工智能技术,如,计算机视觉和机器学习中的模型训练等。其中,延时摄影视频的方法包括:获取原始图片;复制原始图片,生成包括第一预设数目张原始图片的原始图片集;将原始图片集输入至用于生成延时摄影视频的神经网络模型;通过神经网络模型重构第二预设数目张各原始图片的内容,输出包括第三预设数目帧图像的延时摄影视频;第二预设数目等于第一预设数目减1,第三预设数目小于或等于第一预设数目。本发明的方案,能够基于一张原始图片,通过神经网络模型输出预测的延时摄影视频,该原始图片可以由用户提供,从而方便用户很容易便能够制作延时摄影视频,能够有效提升用户体验。

    视频处理方法、介质及服务器

    公开(公告)号:CN110475129A

    公开(公告)日:2019-11-19

    申请号:CN201910848343.6

    申请日:2018-03-05

    发明人: 王柏瑞 马林 刘威

    摘要: 本发明实施例公开了一种视频处理方法、视频检索方法、装置、介质及服务器,利用从视频内容与自然语句之间的双向信息,通过对原始视频进行编解码处理,既能够得到自然语句,又可获取原始视频的视频特征及解码阶段的隐藏状态来重构目标视频,基于目标视频与原始视频之间的差异性对视频处理系统的框架进行优化;这样通过获取视频内容与自然语句之间的双向信息来约束自然语句的生成过程,有利于提升自然语句的描述准确率,优化视频内容理解服务的质量。

    视频处理方法及相关装置,图像处理方法及相关装置

    公开(公告)号:CN110443232A

    公开(公告)日:2019-11-12

    申请号:CN201910848288.0

    申请日:2018-04-12

    IPC分类号: G06K9/00 G06K9/62

    摘要: 本发明实施例提供视频处理方法及相关装置,图像处理方法及相关装置。涉及人工智能中的计算机视觉技术以及机器学习技术,获取待处理视频生成第一步态能量图,待处理视频中视频帧包括身份待识别的对象;获取身份已知的对象的视频的第二步态能量图;将第一、第二步态能量图输入深度神经网络进行第一步态识别包括提取第一、第二步态能量图各自的身份信息,第一和第二步态能量图的融合步态特征向量;至少根据提取的融合步态特征向量计算相似度;第一步态能量图的身份信息包括第一步态能量图的标识和步态特征向量,第二步态能量图的身份信息包括第二步态能量图的标识和步态特征向量;融合步态特征向量由第一、第二步态能量图的步态特征向量决定。

    神经网络模型的训练、延时摄影视频的生成方法及设备

    公开(公告)号:CN110363293A

    公开(公告)日:2019-10-22

    申请号:CN201810253848.3

    申请日:2018-03-26

    发明人: 罗文寒 马林 刘威

    IPC分类号: G06N3/08

    摘要: 本发明公开一种神经网络模型的训练、延时摄影视频的生成方法及设备。所述延时摄影视频的方法包括:获取原始图片;复制原始图片,生成包括第一预设数目张原始图片的原始图片集;将原始图片集输入至用于生成延时摄影视频的神经网络模型;通过神经网络模型重构第二预设数目张各原始图片的内容,输出包括第三预设数目帧图像的延时摄影视频;第二预设数目等于第一预设数目减1,第三预设数目小于或等于第一预设数目。本发明提供的技术方案,能够基于一张原始图片,通过用于生成延时摄影视频的神经网络模型输出预测的延时摄影视频,该原始图片可以由用户提供,从而方便用户很容易便能够制作延时摄影视频,能够有效提升用户体验。

    视频片段定位方法、装置、计算机设备及存储介质

    公开(公告)号:CN110121118A

    公开(公告)日:2019-08-13

    申请号:CN201910523085.4

    申请日:2019-06-17

    IPC分类号: H04N21/845 H04N21/44

    摘要: 本发明公开了一种视频片段定位方法、装置、计算机设备及存储介质,属于视频处理技术领域。本发明通过视频识别模型获取目标视频的多个视频帧特征和目标文本的文本特征,确定一个可以与目标文本匹配的候选片段,并基于候选片段中的视频帧与目标文本的匹配程度,对候选片段进行精细划分,得到多个子片段,将与目标文本匹配程度最高的子片段作为目标视频片段。这种通过多次特征匹配,对获取的候选片段进行再次划分,从而确定目标视频片段的方式,使视频识别模型无需学习目标视频片段的边界特征,在模型训练时也就无需对样本视频进行精确标注,缩短了视频识别模型的训练周期,避免出现因样本视频标注不准确而造成的模型输出结果准确率低的问题。

    一种视频识别方法、装置及存储介质

    公开(公告)号:CN109961041A

    公开(公告)日:2019-07-02

    申请号:CN201910218314.1

    申请日:2019-03-21

    发明人: 王柏瑞 马林 刘威

    IPC分类号: G06K9/00 G06K9/62 G06N3/04

    摘要: 本发明实施例公开了一种视频识别方法、装置及存储介质;本发明实施例可以获取待识别视频,所述待识别视频包括多帧图像;提取所述待识别视频中每一帧图像的多个局部特征;根据每一帧图像中各个局部特征的权重,对每一帧图像中的局部特征进行整合,得到每一帧图像的局部特征序列;根据每一帧图像的局部特征序列、以及所述待识别视频中图像的时序特征,对所述待识别视频进行内容识别,得到所述待识别视频的视频内容描述。该方案可以提高视频内容描述的准确率。

    一种视频动态缩略图的生成方法、模型训练的方法及装置

    公开(公告)号:CN109885723A

    公开(公告)日:2019-06-14

    申请号:CN201910126750.6

    申请日:2019-02-20

    IPC分类号: G06F16/70 G06N3/04

    摘要: 本发明公开了一种视频动态缩略图的生成方法,包括:获取待处理文本以及待处理视频,待处理文本包括N个词语,待处理视频包括T个片段,每个片段包括多帧图像,N为大于1的整数,T为大于1的整数;对待处理文本进行编码得到文本编码特征集合,对待处理视频进行编码得到视频编码特征集合;根据文本编码特征集合以及视频编码特征集合,获取交互特征集合;根据交互特征集合获取图卷积视频特征集合;通过时序条件指针网络生成图卷积视频特征集合所对应的至少一个目标片段。本发明还公开了一种模型训练的方法及装置。本发明能够提升搜索的灵活度和广泛性,其表现力和所包含的视频内容更容易满足用户对于视频内容概览的诉求。