-
公开(公告)号:CN106713929B
公开(公告)日:2019-06-28
申请号:CN201710084742.0
申请日:2017-02-16
申请人: 清华大学深圳研究生院 , 深圳市未来媒体技术研究院
IPC分类号: H04N19/503 , H04N19/124 , H04N19/149
摘要: 本发明公开了一种基于深度神经网络的视频帧间预测增强方法,对不同内容的视频序列分组,并同时对不同的量化参数进行压缩,产生多个不同压缩率的训练集序列、验证集序列对并进行分组,从每个组的所有视频序列对中提取出图片,组成不同压缩率分组下的训练集、验证集图像对;基于深度卷积神经网络训练该压缩率分组下的视频帧间预测增强模型;测试帧间预测增强模型的有效性,在有效的情况下将训练得到模型移植入编码器视频帧间预测模块中;基于GPU利用并行开发工具将测试网络并行化,并编译为动态链接库文件,导入编码器中进行时间复杂度上的优化;既避免了每个量化参数下都分别需要训练的情况,同时也提高了在使用场景下的鲁棒性。
-
公开(公告)号:CN108510491A
公开(公告)日:2018-09-07
申请号:CN201810299569.0
申请日:2018-04-04
申请人: 深圳市未来媒体技术研究院 , 清华大学深圳研究生院
摘要: 本发明公开了一种虚化背景下人体骨骼关键点检测结果的过滤方法,包括:对RGB图像进行人体骨骼关键点的初步检测,得到初步结果;对RGB图像进行深度估计得到深度估计图;对深度估计图进行深度聚类,以将深度估计图划分为N个区域,计算每个区域的平均深度;其中,N≥1;对所述初步结果进行过滤,包括:若N=1,则不进行过滤,将所述初步结果作为最终的检测结果;若N≥2,首先对经所述初步检测得到的每一个人,分别统计其在所述深度估计图的N个区域中的骨骼关键点数量;然后找出每个人的骨骼关键点数量最多的区域,判定相应的人属于该区域;最后将属于平均深度最大的区域的人的骨骼关键点检测结果从所述初步结果中去除,得到最终的检测结果。
-
公开(公告)号:CN107197260A
公开(公告)日:2017-09-22
申请号:CN201710439132.8
申请日:2017-06-12
申请人: 清华大学深圳研究生院 , 深圳市未来媒体技术研究院
IPC分类号: H04N19/117 , H04N19/85 , H04N19/124 , G06N3/08
摘要: 基于卷积神经网络的视频编码后置滤波方法,包括卷积神经网络模型训练步骤和滤波步骤,训练步骤包括:设置视频压缩的量化参数为20至51对原始视频进行编码压缩,得到压缩视频;对所有视频进行帧提取得到多个压缩视频帧‑原始视频帧的帧对;将提取得到帧对按帧类型和量化参数的不同划分为多个组;搭建卷积神经网络框架并初始化网络参数,使用前述划分的组分别对神经网络进行训练,得到对应于不同量化参数和帧类型的多个神经网络模型。滤波步骤包括:将得到的多个神经网络模型嵌入至视频编码器的后置滤波环节;对待处理的原始视频执行前述的编码压缩和帧提取得到待处理帧对,并依据待处理帧对的量化参数和帧类型选择对应的神经网络模型进行滤波处理。
-
公开(公告)号:CN107103285A
公开(公告)日:2017-08-29
申请号:CN201710183903.1
申请日:2017-03-24
申请人: 深圳市未来媒体技术研究院 , 清华大学深圳研究生院
摘要: 本发明公开了一种基于卷积神经网络的人脸深度预测方法,包括生成一人脸深度预测神经网络的步骤,所述生成一人脸深度预测神经网络的步骤包括:搭建具有特定架构的卷积神经网络,所述特定架构是指在卷积层的输出端依次串联规范化操作和激励操作,再在串联了前述两个操作的卷积层上并联k×k的卷积;初始化该卷积神经网络;将RGB人脸图片输入该卷积神经网络,以最小化代价函数为目标进行迭代,以训练形成所述人脸深度预测神经网络。
-
公开(公告)号:CN106204468A
公开(公告)日:2016-12-07
申请号:CN201610482594.3
申请日:2016-06-27
申请人: 深圳市未来媒体技术研究院 , 清华大学深圳研究生院
IPC分类号: G06T5/00
CPC分类号: G06T5/002 , G06T2207/20021 , G06T2207/20081 , G06T2207/20084
摘要: 本发明公开了一种基于ReLU卷积神经网络的图像去噪方法,包括以下步骤:搭建ReLU卷积神经网络模型,所述ReLU卷积神经网络模型包括多个卷积层和每个所述卷积层后的激活层,所述激活层为ReLU函数;选取训练集,并设置所述ReLU卷积神经网络模型的训练参数;根据所述ReLU卷积神经网络模型及其训练参数,以最小化损失函数为目标训练所述ReLU卷积神经网络模型形成图像去噪神经网络模型;将待处理的图像输入到所述图像去噪神经网络模型,输出去噪后的图像。本发明公开的基于ReLU卷积神经网络的图像去噪方法,极大地增强神经网络的学习能力,建立起噪声图像到干净图像的准确映射,可以实现实时去噪。
-
公开(公告)号:CN108629291B
公开(公告)日:2020-10-20
申请号:CN201810333873.2
申请日:2018-04-13
申请人: 深圳市未来媒体技术研究院 , 清华大学深圳研究生院
摘要: 提供一种抗网格效应的人脸深度预测方法,包括步骤:S1:搭建抗网格效应的卷积神经网络,包括多个空洞卷积,每个空洞卷积串联连接的规范化操作和激励操作,以及多个像素反卷积;S2:建立人脸数据集,其包括训练集和测试集,并设置卷积神经网络的训练参数;S3:对卷积神经网络进行权重初始化,将训练集输入卷积神经网络中,以最小化代价函数为目标来训练神经网络形成人脸图像深度预测神经网络模型;S4:将测试集输入人脸图像深度预测神经网络模型,输出能够反映人脸图像深度信息的图像。本发明的人脸深度预测方法,能够解决传统卷积神经网络的网格效应,拥有较大的感受域,能够极大地提升人脸深度预测的准确性,有利于进行人脸的三维重建研究。
-
公开(公告)号:CN106204468B
公开(公告)日:2019-04-26
申请号:CN201610482594.3
申请日:2016-06-27
申请人: 深圳市未来媒体技术研究院 , 清华大学深圳研究生院
IPC分类号: G06T5/00
摘要: 本发明公开了一种基于ReLU卷积神经网络的图像去噪方法,包括以下步骤:搭建ReLU卷积神经网络模型,所述ReLU卷积神经网络模型包括多个卷积层和每个所述卷积层后的激活层,所述激活层为ReLU函数;选取训练集,并设置所述ReLU卷积神经网络模型的训练参数;根据所述ReLU卷积神经网络模型及其训练参数,以最小化损失函数为目标训练所述ReLU卷积神经网络模型形成图像去噪神经网络模型;将待处理的图像输入到所述图像去噪神经网络模型,输出去噪后的图像。本发明公开的基于ReLU卷积神经网络的图像去噪方法,极大地增强神经网络的学习能力,建立起噪声图像到干净图像的准确映射,可以实现实时去噪。
-
公开(公告)号:CN105704371B
公开(公告)日:2019-04-26
申请号:CN201610050596.5
申请日:2016-01-25
申请人: 深圳市未来媒体技术研究院 , 清华大学深圳研究生院
IPC分类号: H04N5/232
摘要: 本发明涉及一种光场重聚焦方法,包括如下步骤:初始化,对于光场相机拍摄的图像,取出其对应的子孔径图;记录位置信息,对取出的光场相机的子孔径图,记录其位置信息;第一次超分辨:按顺序取其中一张子孔径图,使用已经训练好的超分辨方法对其进行一次超分辨;然后继续对下一张子孔径图使用同样的方法进行超分辨,直到最后所有的子孔径图都经过该超分辨方法的处理;超分辨聚焦过程:对于经上述步骤处理后的子孔径图,利用其相邻位置的子孔径图的信息,使用超分辨重构方法,通过这一系列子孔径图来获得一张高分辨的重聚焦图。最终得出的光场相机超分辨图的倍数远远大于传统超分辨所能获得的倍数,大大提高了使用传统方法获得光场相机图的分辨率。
-
公开(公告)号:CN107103589A
公开(公告)日:2017-08-29
申请号:CN201710170590.6
申请日:2017-03-21
申请人: 深圳市未来媒体技术研究院 , 清华大学深圳研究生院
IPC分类号: G06T5/00
摘要: 一种基于光场图像的高光区域修复方法,包括:获取四维光场图像以及对应的深度图像;从四维光场图像提取中心视点图像,初步确定高光目标点的空间域坐标,依照输入的深度图像对四维光场图像进行重聚焦,获取高光目标点的角度域特性并划分成饱和高光点与非饱和高光点;对一个视点或多个视点的图像进行本征图像分解,得到图像本征反射属性,找到高光目标点对应的本征反射信息;对非饱和高光点,利用多视点下的局部区域特性分离出漫反射分量,结合步骤A3确定的本征反射信息,对非饱和高光点进行修复;A5:对饱和高光点,利用临近像素点的漫反射分量进行传播,结合步骤A3确定的本征反射信息,对饱和高光点进行修复。利用本发明能够提高含有高光表面的图像的质量。
-
公开(公告)号:CN106713929A
公开(公告)日:2017-05-24
申请号:CN201710084742.0
申请日:2017-02-16
申请人: 清华大学深圳研究生院 , 深圳市未来媒体技术研究院
IPC分类号: H04N19/503 , H04N19/124 , H04N19/149
CPC分类号: H04N19/503 , H04N19/124 , H04N19/149
摘要: 本发明公开了一种基于深度神经网络的视频帧间预测增强方法,对不同内容的视频序列分组,并同时对不同的量化参数进行压缩,产生多个不同压缩率的训练集序列、测试集序列对并进行分组,从每个组的所有视频序列对中提取出图片,组成不同压缩率分组下的训练集、验证集图像对;基于深度卷积神经网络训练该压缩率分组下的视频帧间预测增强模型;测试帧间预测增强模型的有效性,在有效的情况下将训练得到模型移植入编码器视频帧间预测模块中;基于GPU利用并行开发工具将测试网络并行化,并编译为动态链接库文件,导入编码器中进行时间复杂度上的优化;既避免了每个量化参数下都分别需要训练的情况,同时也提高了在使用场景下的鲁棒性。
-
-
-
-
-
-
-
-
-