-
公开(公告)号:CN116962713A
公开(公告)日:2023-10-27
申请号:CN202211377480.4
申请日:2022-11-04
Applicant: 腾讯科技(深圳)有限公司
IPC: H04N19/42 , H04N19/517 , H04N21/44 , H04N21/4402
Abstract: 本申请公开一种视频压缩方法、视频解码方法和相关装置,对获取到的待处理视频帧和前一视频帧分别进行关键点提取,得到第一位置信息和第二位置信息,根据第一位置信息和第二位置信息进行运动估计得到运动信息。根据运动信息和前一视频帧进行图像修复得到初始重建视频帧。根据待处理视频帧和初始重建视频帧确定隐特征,根据第一位置信息、第二位置信息和隐特征进行视频压缩得到视频压缩文件,极大减小运动信息消耗的字节流,减小视频压缩文件传输带宽。视频接收端获取到视频压缩文件,并基于第一位置信息和第二位置信息得到初始重建视频帧后,利用隐特征对初始重建视频帧进行二次修复,缓解复杂画面运动造成的重建视频帧失真现象,提升算法鲁棒性。
-
公开(公告)号:CN116756574A
公开(公告)日:2023-09-15
申请号:CN202311032903.3
申请日:2023-08-16
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请提供了一种多模态预训练模型的训练方法、使用方法、装置和设备,属于人工智能技术领域。方法包括:获取样本图像的第一图块序列信息;将第一图块序列信息输入视觉分词器,得到第一语义特征,视觉分词器为知识蒸馏中的教师网络;对第一图块序列信息所指示的图块序列中的至少一个图块进行掩码,得到第二图块序列信息;将第二图块序列信息输入多模态预训练模型,得到第二语义特征,多模态预训练模型为知识蒸馏中的学生网络;基于第一语义特征和第二语义特征,确定第一损失值,第一损失值用于指示第一语义特征和第二语义特征之间的差距;基于第一损失值对视觉分词器和多模态预训练模型进行训练,提高了视觉分词器和多模态预训练模型的泛化能力。
-
-
公开(公告)号:CN116416342B
公开(公告)日:2023-09-19
申请号:CN202310687711.X
申请日:2023-06-12
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取线稿图像,基于所述线稿图像提取多尺度的线稿纹理特征;获取从预设噪声图像中提取的所述多尺度的噪声特征;获取所述线稿图像对应的颜色引导信息;针对所述多尺度的每个尺度,参考所针对尺度的所述线稿纹理特征和所述颜色引导信息,对所针对尺度下的噪声特征进行编码,获得多尺度的图像特征;对所述多尺度的图像特征进行多尺度的解码,获得上色图像;所述上色图像具备所述线稿图像的线稿纹理,且具有所述颜色引导信息所指示的颜色。采用本方法能够提高线稿上色的协调性和图像质量。
-
公开(公告)号:CN116246213A
公开(公告)日:2023-06-09
申请号:CN202310506746.9
申请日:2023-05-08
Applicant: 腾讯科技(深圳)有限公司
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06F40/289 , G06F40/30 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本申请实施例提供了一种数据处理方法、装置、设备以及介质,该方法可应用在视频评论生成、字幕生成以及视频内容理解等领域中。该方法包括:获取视频数据以及视频数据对应的视频配文数据;获取视频数据对应的视频表示信息,获取视频配文数据对应的文本表示信息;对视频表示信息进行时序采样处理,得到视频数据对应的视频时序采样信息,将视频时序采样信息和文本表示信息组合为多模态组合特征;对多模态组合特征进行编码处理得到多模态融合编码特征,对多模态融合编码特征进行文本解码处理,得到与视频数据相关联的视频内容描述文本。通过本申请实施例,可以提升视频内容的描述准确性。
-
公开(公告)号:CN117115023A
公开(公告)日:2023-11-24
申请号:CN202311058643.7
申请日:2023-08-21
Applicant: 腾讯科技(深圳)有限公司
IPC: G06T5/00 , G06T3/40 , G06V10/44 , G06N3/0455 , G06N3/0464 , G06N3/045
Abstract: 本申请提供了一种图像增强方法、装置、设备、存储介质及程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:获取待增强的对象图像的隐变量,并对所述隐变量添加噪声,得到所述对象图像的加噪隐变量,所述对象图像为目标对象的图像;提取所述对象图像中所述目标对象的对象结构特征;结合所述对象结构特征,对所述加噪隐变量进行去噪处理,得到所述对象图像的去噪隐变量;对所述去噪隐变量进行图像重建,得到所述对象图像的第一对象增强图像;通过本申请,能够提高对象图像的图像增强效果。
-
公开(公告)号:CN119515711A
公开(公告)日:2025-02-25
申请号:CN202311057364.9
申请日:2023-08-21
Applicant: 腾讯科技(深圳)有限公司
IPC: G06T5/70 , G06T5/60 , G06V40/16 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/045
Abstract: 本申请提供了一种图像增强方法、装置、设备、存储介质及程序产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:获取待增强的脸部图像的隐变量,并对所述隐变量添加噪声,得到所述脸部图像的加噪隐变量,所述脸部图像为目标对象的脸部的图像;提取所述脸部图像中所述脸部的脸部特征;结合所述脸部特征,对所述加噪隐变量进行去噪处理,得到所述脸部图像的去噪隐变量;对所述去噪隐变量进行图像重建,得到所述脸部图像的脸部增强图像;通过本申请,能够提高脸部图像的图像增强效果。
-
公开(公告)号:CN116246213B
公开(公告)日:2023-07-28
申请号:CN202310506746.9
申请日:2023-05-08
Applicant: 腾讯科技(深圳)有限公司
IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06F40/289 , G06F40/30 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/08
Abstract: 本申请实施例提供了一种数据处理方法、装置、设备以及介质,该方法可应用在视频评论生成、字幕生成以及视频内容理解等领域中。该方法包括:获取视频数据以及视频数据对应的视频配文数据;获取视频数据对应的视频表示信息,获取视频配文数据对应的文本表示信息;对视频表示信息进行时序采样处理,得到视频数据对应的视频时序采样信息,将视频时序采样信息和文本表示信息组合为多模态组合特征;对多模态组合特征进行编码处理得到多模态融合编码特征,对多模态融合编码特征进行文本解码处理,得到与视频数据相关联的视频内容描述文本。通过本申请实施例,可以提升视频内容的描述准确性。
-
公开(公告)号:CN116416342A
公开(公告)日:2023-07-11
申请号:CN202310687711.X
申请日:2023-06-12
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取线稿图像,基于所述线稿图像提取多尺度的线稿纹理特征;获取从预设噪声图像中提取的所述多尺度的噪声特征;获取所述线稿图像对应的颜色引导信息;针对所述多尺度的每个尺度,参考所针对尺度的所述线稿纹理特征和所述颜色引导信息,对所针对尺度下的噪声特征进行编码,获得多尺度的图像特征;对所述多尺度的图像特征进行多尺度的解码,获得上色图像;所述上色图像具备所述线稿图像的线稿纹理,且具有所述颜色引导信息所指示的颜色。采用本方法能够提高线稿上色的协调性和图像质量。
-
-
-
-
-
-
-
-