-
公开(公告)号:CN110163052A
公开(公告)日:2019-08-23
申请号:CN201810861147.8
申请日:2018-08-01
申请人: 腾讯科技(深圳)有限公司 , 北京大学
摘要: 本发明揭示了一种视频动作识别方法、装置和机器设备。所述方法包括:获取进行动作识别的视频数据;对视频数据在神经网络中进行网络各层的特征抽取中,经由神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层;相邻帧视频图像之间根据空域特征进行双线性层上的双线性相关性运算,获得视频数据中每帧视频图像的时空域特征;通过时空域特征进行视频中动作的分类,获得视频数据的动作识别结果。对于神经网络中网络各层的特征抽取,在双线性层上双线性相关性运算中参数和计算复杂度得到控制,进而在控制复杂度的情况下抽取了时空域特征由此,实现了时域关系上的显式建模,有效提升动作识别的性能。
-
公开(公告)号:CN110163052B
公开(公告)日:2022-09-09
申请号:CN201810861147.8
申请日:2018-08-01
申请人: 腾讯科技(深圳)有限公司 , 北京大学
摘要: 本发明揭示了一种视频动作识别方法、装置和机器设备。所述方法包括:获取进行动作识别的视频数据;对视频数据在神经网络中进行网络各层的特征抽取中,经由神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层;相邻帧视频图像之间根据空域特征进行双线性层上的双线性相关性运算,获得视频数据中每帧视频图像的时空域特征;通过时空域特征进行视频中动作的分类,获得视频数据的动作识别结果。对于神经网络中网络各层的特征抽取,在双线性层上双线性相关性运算中参数和计算复杂度得到控制,进而在控制复杂度的情况下抽取了时空域特征由此,实现了时域关系上的显式建模,有效提升动作识别的性能。
-
公开(公告)号:CN110147699A
公开(公告)日:2019-08-20
申请号:CN201810325819.3
申请日:2018-04-12
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本发明实施例公开了一种图像识别方法、装置以及相关设备,方法包括:根据多个样本视频以及与所述多个样本视频关联的多个辅助数据,生成识别模型的调整辅助参数;根据所述多个样本视频的分类误差参数以及所述调整辅助参数调整识别模型,当调整辅助参数和分类误差参数之和小于目标阈值时,将调整后的识别模型确定为用于识别视频中对象的属性类型的目标识别模型。采用本发明,可以提高图像识别的准确率。
-
-
公开(公告)号:CN118537209A
公开(公告)日:2024-08-23
申请号:CN202410188562.7
申请日:2024-02-20
申请人: 北京大学
摘要: 本发明公开一种基于频谱重建的文本驱动式图像翻译方法及系统,属于人工智能图像创作及编辑领域。本发明构建预训练的文生图潜扩散模型LDM、频谱滤波模块和频带控制网络,首次从频域视角以特征频谱的不同频带建模图像翻译中原始图像和目标图像之间不同的关联关系,通过不同模式的频谱滤波构建并训练不同的频带控制分支,来控制预训练模型LDM进行相应类型的图像翻译,从而实现单个模型灵活兼容不同的图像翻译应用场景。
-
公开(公告)号:CN115278249B
公开(公告)日:2024-06-28
申请号:CN202210735183.6
申请日:2022-06-27
申请人: 北京大学
IPC分类号: H04N19/147 , H04N19/176 , H04N19/42 , G06N3/0464 , G06N3/08
摘要: 本发明公开一种基于视觉自注意力网络的视频块级率失真优化方法及系统,属于数字视频增强领域,将多头自注意力机制引入视频压缩后处理任务中,充分利用自注意力机制强大的建模能力学习受损帧到无损帧的映射,并构建3种基于视觉自注意力网络的后处理模型,引入多种网络架构针对不同内容进行块级率失真优化,从而高效消除视频在解码重建时产生的伪影和压缩噪声。
-
公开(公告)号:CN114554205B
公开(公告)日:2023-03-10
申请号:CN202011353900.6
申请日:2020-11-26
摘要: 提供一种图像编解码方法及装置,涉及图像编解码技术领域,能够减少神经网络的参数,能够降低图像编解码的算力消耗。该方法包括:使用第一分析网络对目标图像进行第一去相关变换,得到目标图像的第一特征图;且使用第二分析网络对第一特征图进行第二去相关变换,得到目标图像的第二特征图;然后基于第二特征图的第二概率直方图对第二特征图进行熵编码,获得目标图像的第二码流;并基于第二特征图的第二概率直方图和第二码流,获得目标图像的第二重建图;将第二重建图作为先验信息,使用第一概率预测网络对第一特征图进行概率预测,获得第一概率直方图;以及基于第一特征图的第一概率直方图对第一特征图进行熵编码,获得目标图像的第一码流。
-
公开(公告)号:CN115240022A
公开(公告)日:2022-10-25
申请号:CN202210651629.7
申请日:2022-06-09
申请人: 北京大学
IPC分类号: G06V10/774 , G06V10/74 , G06V10/80 , G06V10/82 , G06T5/00
摘要: 本发明公开了一种使用长曝光补偿的低光照图像增强方法。本方法为:1)收集低光照训练数据集,其中所述低光照训练数据集中的每一训练样本包括同一场景的低光照图像和正常光照图像;根据每一训练样本生成一组对应的短曝光图像、长曝光图像和真实光照图像,得到一合成数据集S;2)利用所述合成数据集S训练低光照增强模型,所述低光照增强模型包括M‑1个特征对齐模块和M‑1个提亮模块;3)将待提亮的短曝光图像和对应的模糊长曝光图像输入训练后的低光照增强模型,得到对应的低光照增强图像。本发明能够显著提升低光照图片增强性能。
-
公开(公告)号:CN115131844A
公开(公告)日:2022-09-30
申请号:CN202110320033.4
申请日:2021-03-25
申请人: 北京大学
IPC分类号: G06V40/16 , G06V10/774 , G06V10/80 , G06V10/82 , G06N3/08
摘要: 本发明公开了一种无监督低光照人脸检测模型训练方法及检测方法。本方法为:1)收集已标注的正常光照人脸训练数据与无标注的低光照人脸训练数据,得到正常光照人脸检测训练数据集H、低光照训练数据集L;2)对低光照训练数据集L中的图像进行提亮,得到提亮后的低光照训练数据集E(L);3)获取集合E(L)中低光照人脸训练数据的噪声与色偏分布,应用于集合H中的正常光照人脸训练数据,得到降质后的正常光照人脸训练数据集D(H);4)利用集合E(L)、集合D(H)和集合H,训练人脸检测模型。对待检测的低光照人脸检测图像进行提亮后输入到训练后的低光照人脸检测模型,输出人脸检测结果。本发明能够大大提升人脸检测性能。
-
公开(公告)号:CN112069769B
公开(公告)日:2022-07-26
申请号:CN201910440039.8
申请日:2019-05-24
申请人: 北京大学
IPC分类号: G06F40/109
摘要: 本发明提出一种针对特效字的智能字效迁移方法及系统,该方法包括以下步骤:利用训练数据集,训练遮罩提取子网络进行装饰元素遮罩的提取,训练基础特效迁移子网络进行基础文字特效迁移;将带有装饰元素的特效字Dy和其配对字形图片Cy输入到训练好的遮罩提取子网络中,得到装饰元素遮罩My;将Dy及其配对字形图片Cy、目标字形图片Cx输入到训练好的基础特效迁移子网络中,得到基础特效迁移和装饰元素消除的结果Sx;利用My,Cy和Cx进行元素重组,将装饰元素融合在Sx上,得到目标字形对应的迁移后的带有装饰元素的特效字Dx。本方法能够在迁移文字特效的同时迁移其装饰元素,且不会导致装饰元素的丢失和扭曲。
-
-
-
-
-
-
-
-
-