-
公开(公告)号:CN110163052B
公开(公告)日:2022-09-09
申请号:CN201810861147.8
申请日:2018-08-01
申请人: 腾讯科技(深圳)有限公司 , 北京大学
摘要: 本发明揭示了一种视频动作识别方法、装置和机器设备。所述方法包括:获取进行动作识别的视频数据;对视频数据在神经网络中进行网络各层的特征抽取中,经由神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层;相邻帧视频图像之间根据空域特征进行双线性层上的双线性相关性运算,获得视频数据中每帧视频图像的时空域特征;通过时空域特征进行视频中动作的分类,获得视频数据的动作识别结果。对于神经网络中网络各层的特征抽取,在双线性层上双线性相关性运算中参数和计算复杂度得到控制,进而在控制复杂度的情况下抽取了时空域特征由此,实现了时域关系上的显式建模,有效提升动作识别的性能。
-
公开(公告)号:CN110147699A
公开(公告)日:2019-08-20
申请号:CN201810325819.3
申请日:2018-04-12
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本发明实施例公开了一种图像识别方法、装置以及相关设备,方法包括:根据多个样本视频以及与所述多个样本视频关联的多个辅助数据,生成识别模型的调整辅助参数;根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型,当调整辅助参数和分类误差参数之和小于目标阈值时,将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。采用本发明,可以提高图像识别的准确率。
-
-
公开(公告)号:CN110163052A
公开(公告)日:2019-08-23
申请号:CN201810861147.8
申请日:2018-08-01
申请人: 腾讯科技(深圳)有限公司 , 北京大学
摘要: 本发明揭示了一种视频动作识别方法、装置和机器设备。所述方法包括:获取进行动作识别的视频数据;对视频数据在神经网络中进行网络各层的特征抽取中,经由神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层;相邻帧视频图像之间根据空域特征进行双线性层上的双线性相关性运算,获得视频数据中每帧视频图像的时空域特征;通过时空域特征进行视频中动作的分类,获得视频数据的动作识别结果。对于神经网络中网络各层的特征抽取,在双线性层上双线性相关性运算中参数和计算复杂度得到控制,进而在控制复杂度的情况下抽取了时空域特征由此,实现了时域关系上的显式建模,有效提升动作识别的性能。
-
公开(公告)号:CN109189950B
公开(公告)日:2023-04-07
申请号:CN201811023323.7
申请日:2018-09-03
申请人: 腾讯科技(深圳)有限公司
摘要: 本发明公开了一种多媒体资源分类方法、装置、计算机设备及存储介质,属于计算机技术领域。所述方法包括:根据资源分类指令,获取待分类的多媒体资源;调用资源分类模型,所述资源分类模型包括多个资源分类模块,每个资源分类模块对应于一种多媒体资源的分类算法;将所述多媒体资源输入所述资源分类模型中,由所述资源分类模型中的每个资源分类模块分别对所述多媒体资源进行分类,得到多个第一分类结果,基于所述多个第一分类结果输出第二分类结果,所述第二分类结果为所述多媒体资源的至少一个类型。本发明通过一个模型中的多个资源分类模块进行分类,并综合结果,有效提高了多媒体资源分类的准确性。
-
公开(公告)号:CN109871736B
公开(公告)日:2023-01-31
申请号:CN201811409084.9
申请日:2018-11-23
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06F40/35 , G06F18/241 , G06F18/25 , G06N3/0464 , G06N3/0455 , G06N3/0442 , G06N3/044 , G06N3/092
摘要: 本发明公开了一种自然语言描述信息的生成方法及装置。其中,该方法包括:通过多个自然语言描述模型对媒体资源进行处理,得到多个第一特征向量,其中,多个第一特征向量对应多种特征类型,多个自然语言描述模型中每个自然语言描述模型用于根据输入信息生成自然语言描述信息,自然语言描述信息用于通过自然语言表示自然语言描述模型的输入信息;对多个第一特征向量进行融合,得到第二特征向量;根据第二特征向量生成目标自然语言描述信息,其中,目标自然语言描述信息用于通过自然语言表示媒体资源。本发明解决了相关技术中为媒体资源生成的自然语言描述信息对媒体资源描述的准确性较低的技术问题。
-
公开(公告)号:CN109934775B
公开(公告)日:2022-12-27
申请号:CN201811384682.5
申请日:2018-11-20
申请人: 腾讯科技(深圳)有限公司
摘要: 本发明实施例公开了一种图像处理、模型训练、方法、装置和存储介质;本发明实施例可以获取待处理模糊图像、以及所述待处理模糊图像对应的模糊核;获取所述模糊核对应的分解矩阵;根据所述分解矩阵对反卷积网络模型中卷积层的参数进行设置,得到设置后反卷积网络模型,所述反卷积网络模型由样本模糊核、样本模糊核的广义矩阵分解结果、样本模糊核对应的样本模糊图像训练而成;所述卷积层与所述分解矩阵对应;根据所述设置后反卷积网络模型对所述待处理模糊图像进行去模糊处理,得到去模糊后图像;该方案可以提升去模糊效率和效果。
-
公开(公告)号:CN109960747B
公开(公告)日:2022-12-16
申请号:CN201910263207.0
申请日:2019-04-02
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06F16/783
摘要: 本申请实施例提供了一种视频描述信息的生成方法、视频处理方法、相应的装置。该视频描述信息的生成方法包括:获取待描述视频对应的帧级别视频特征序列;根据视频特征序列,生成待描述视频的全局词性序列特征;根据全局词性序列特征及视频特征序列,生成待描述视频的自然语言描述信息,本申请实施例能够有效地从视频数据中提取出自然语言对应的全局词性序列特征,用于引导生成准确的自然语言描述,提高视频描述的能力。
-
公开(公告)号:CN110555337B
公开(公告)日:2022-12-06
申请号:CN201810542990.X
申请日:2018-05-30
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06V20/20 , G06V10/774 , G06V10/82 , G06N3/08
摘要: 本申请实施例公开了一种指示对象的检测方法、装置以及相关设备,其中,该方法包括:获取给定图像和给定自然语句,根据指示对象检测模型,对上述给定图像和给定自然语句进行处理,得到给定自然语句描述的指示对象在给定图像中的位置坐标。上述指示对象检测模型为是以图像和自然语句作为输入,直接以自然语句所描述的指示对象在图像中的位置坐标为输出的端到端的神经网络,该指示对象检测模型是通过端到端训练方式,对整个神经网络的参数进行整体训练优化而得到的模型,该指示对象检测模型具有更好的整体检测性能,因此,利用该指示对象检测模型检测指示对象,能够保证检测结果的准确性。
-
公开(公告)号:CN109508584B
公开(公告)日:2022-12-02
申请号:CN201710833668.8
申请日:2017-09-15
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06V10/764 , G06V20/40 , G06F16/75 , G06F16/9535
摘要: 本申请公开了一种信息处理的方法,包括:获取待处理视频;根据时间特征采样规则对待处理视频进行采样,并获取至少一个视频帧特征序列,时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;通过第一神经网络模型对至少一个视频帧特征序列进行处理,得到每个视频帧特征序列的特征表达结果;通过第二神经网络模型对至少一个视频帧特征序列的特征表达结果进行处理,得到至少一个视频帧特征序列所对应的预测结果,预测结果用于确定待处理视频的类别。本申请还提供一种服务器。本申请在对视频进行分类的过程中,还考虑到视频在时间维度上的特征变化,从而能够更好地表达视频内容,提高视频分类的准确率,提升视频分类的效果。
-
-
-
-
-
-
-
-
-