一种视频压缩方法、视频解码方法和相关装置

    公开(公告)号:CN116962713A

    公开(公告)日:2023-10-27

    申请号:CN202211377480.4

    申请日:2022-11-04

    Abstract: 本申请公开一种视频压缩方法、视频解码方法和相关装置,对获取到的待处理视频帧和前一视频帧分别进行关键点提取,得到第一位置信息和第二位置信息,根据第一位置信息和第二位置信息进行运动估计得到运动信息。根据运动信息和前一视频帧进行图像修复得到初始重建视频帧。根据待处理视频帧和初始重建视频帧确定隐特征,根据第一位置信息、第二位置信息和隐特征进行视频压缩得到视频压缩文件,极大减小运动信息消耗的字节流,减小视频压缩文件传输带宽。视频接收端获取到视频压缩文件,并基于第一位置信息和第二位置信息得到初始重建视频帧后,利用隐特征对初始重建视频帧进行二次修复,缓解复杂画面运动造成的重建视频帧失真现象,提升算法鲁棒性。

    多模态预训练模型的训练方法、使用方法、装置和设备

    公开(公告)号:CN116756574A

    公开(公告)日:2023-09-15

    申请号:CN202311032903.3

    申请日:2023-08-16

    Abstract: 本申请提供了一种多模态预训练模型的训练方法、使用方法、装置和设备,属于人工智能技术领域。方法包括:获取样本图像的第一图块序列信息;将第一图块序列信息输入视觉分词器,得到第一语义特征,视觉分词器为知识蒸馏中的教师网络;对第一图块序列信息所指示的图块序列中的至少一个图块进行掩码,得到第二图块序列信息;将第二图块序列信息输入多模态预训练模型,得到第二语义特征,多模态预训练模型为知识蒸馏中的学生网络;基于第一语义特征和第二语义特征,确定第一损失值,第一损失值用于指示第一语义特征和第二语义特征之间的差距;基于第一损失值对视觉分词器和多模态预训练模型进行训练,提高了视觉分词器和多模态预训练模型的泛化能力。

    图像处理方法、装置、计算机设备和计算机可读存储介质

    公开(公告)号:CN116416342B

    公开(公告)日:2023-09-19

    申请号:CN202310687711.X

    申请日:2023-06-12

    Inventor: 项进喜 罗凤 张军

    Abstract: 本申请涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取线稿图像,基于所述线稿图像提取多尺度的线稿纹理特征;获取从预设噪声图像中提取的所述多尺度的噪声特征;获取所述线稿图像对应的颜色引导信息;针对所述多尺度的每个尺度,参考所针对尺度的所述线稿纹理特征和所述颜色引导信息,对所针对尺度下的噪声特征进行编码,获得多尺度的图像特征;对所述多尺度的图像特征进行多尺度的解码,获得上色图像;所述上色图像具备所述线稿图像的线稿纹理,且具有所述颜色引导信息所指示的颜色。采用本方法能够提高线稿上色的协调性和图像质量。

    图像增强方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN117115023A

    公开(公告)日:2023-11-24

    申请号:CN202311058643.7

    申请日:2023-08-21

    Inventor: 罗凤 项进喜 张军

    Abstract: 本申请提供了一种图像增强方法、装置、设备、存储介质及程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:获取待增强的对象图像的隐变量,并对所述隐变量添加噪声,得到所述对象图像的加噪隐变量,所述对象图像为目标对象的图像;提取所述对象图像中所述目标对象的对象结构特征;结合所述对象结构特征,对所述加噪隐变量进行去噪处理,得到所述对象图像的去噪隐变量;对所述去噪隐变量进行图像重建,得到所述对象图像的第一对象增强图像;通过本申请,能够提高对象图像的图像增强效果。

    图像增强方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN119515711A

    公开(公告)日:2025-02-25

    申请号:CN202311057364.9

    申请日:2023-08-21

    Inventor: 罗凤 项进喜 张军

    Abstract: 本申请提供了一种图像增强方法、装置、设备、存储介质及程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:获取待增强的脸部图像的隐变量,并对所述隐变量添加噪声,得到所述脸部图像的加噪隐变量,所述脸部图像为目标对象的脸部的图像;提取所述脸部图像中所述脸部的脸部特征;结合所述脸部特征,对所述加噪隐变量进行去噪处理,得到所述脸部图像的去噪隐变量;对所述去噪隐变量进行图像重建,得到所述脸部图像的脸部增强图像;通过本申请,能够提高脸部图像的图像增强效果。

    图像处理方法、装置、计算机设备和计算机可读存储介质

    公开(公告)号:CN116416342A

    公开(公告)日:2023-07-11

    申请号:CN202310687711.X

    申请日:2023-06-12

    Inventor: 项进喜 罗凤 张军

    Abstract: 本申请涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取线稿图像,基于所述线稿图像提取多尺度的线稿纹理特征;获取从预设噪声图像中提取的所述多尺度的噪声特征;获取所述线稿图像对应的颜色引导信息;针对所述多尺度的每个尺度,参考所针对尺度的所述线稿纹理特征和所述颜色引导信息,对所针对尺度下的噪声特征进行编码,获得多尺度的图像特征;对所述多尺度的图像特征进行多尺度的解码,获得上色图像;所述上色图像具备所述线稿图像的线稿纹理,且具有所述颜色引导信息所指示的颜色。采用本方法能够提高线稿上色的协调性和图像质量。

Patent Agency Ranking