Patent search ap:("腾讯科技(深圳)有限公司") AND inv:"罗凤" Page 1

1.

发明公开
一种视频压缩方法、视频解码方法和相关装置审中-公开

公开(公告)号：CN116962713A

公开(公告)日：2023-10-27

申请号：CN202211377480.4

申请日：2022-11-04

Applicant: 腾讯科技(深圳)有限公司

Inventor： 罗凤 , 项进喜 , 田宽 , 张军

IPC: H04N19/42 , H04N19/517 , H04N21/44 , H04N21/4402

Abstract: 本申请公开一种视频压缩方法、视频解码方法和相关装置，对获取到的待处理视频帧和前一视频帧分别进行关键点提取，得到第一位置信息和第二位置信息，根据第一位置信息和第二位置信息进行运动估计得到运动信息。根据运动信息和前一视频帧进行图像修复得到初始重建视频帧。根据待处理视频帧和初始重建视频帧确定隐特征，根据第一位置信息、第二位置信息和隐特征进行视频压缩得到视频压缩文件，极大减小运动信息消耗的字节流，减小视频压缩文件传输带宽。视频接收端获取到视频压缩文件，并基于第一位置信息和第二位置信息得到初始重建视频帧后，利用隐特征对初始重建视频帧进行二次修复，缓解复杂画面运动造成的重建视频帧失真现象，提升算法鲁棒性。

2.

发明公开
多模态预训练模型的训练方法、使用方法、装置和设备审中-实审

公开(公告)号：CN116756574A

公开(公告)日：2023-09-15

申请号：CN202311032903.3

申请日：2023-08-16

Applicant: 腾讯科技(深圳)有限公司

Inventor： 关永航 , 项进喜 , 罗凤 , 张军

IPC: G06F18/214 , G06F18/21 , G06F18/25 , G06N3/045 , G06N3/091 , G06N3/096 , G06V20/70 , G06F40/30

Abstract: 本申请提供了一种多模态预训练模型的训练方法、使用方法、装置和设备，属于人工智能技术领域。方法包括：获取样本图像的第一图块序列信息；将第一图块序列信息输入视觉分词器，得到第一语义特征，视觉分词器为知识蒸馏中的教师网络；对第一图块序列信息所指示的图块序列中的至少一个图块进行掩码，得到第二图块序列信息；将第二图块序列信息输入多模态预训练模型，得到第二语义特征，多模态预训练模型为知识蒸馏中的学生网络；基于第一语义特征和第二语义特征，确定第一损失值，第一损失值用于指示第一语义特征和第二语义特征之间的差距；基于第一损失值对视觉分词器和多模态预训练模型进行训练，提高了视觉分词器和多模态预训练模型的泛化能力。

3.

发明授权
多模态预训练模型的训练方法、使用方法、装置和设备有权

公开(公告)号：CN116756574B

公开(公告)日：2023-11-21

申请号：CN202311032903.3

申请日：2023-08-16

Applicant: 腾讯科技(深圳)有限公司

Inventor： 关永航 , 项进喜 , 罗凤 , 张军

IPC: G06F18/214 , G06F18/21 , G06F18/25 , G06N3/045 , G06N3/091 , G06N3/096 , G06V20/70 , G06F40/30

4.

发明授权
图像处理方法、装置、计算机设备和计算机可读存储介质有权

公开(公告)号：CN116416342B

公开(公告)日：2023-09-19

申请号：CN202310687711.X

申请日：2023-06-12

Applicant: 腾讯科技(深圳)有限公司

Inventor： 项进喜 , 罗凤 , 张军

IPC: G06T11/40 , G06T7/10 , G06V10/40 , G06V10/56 , G06V10/54

Abstract: 本申请涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取线稿图像，基于所述线稿图像提取多尺度的线稿纹理特征；获取从预设噪声图像中提取的所述多尺度的噪声特征；获取所述线稿图像对应的颜色引导信息；针对所述多尺度的每个尺度，参考所针对尺度的所述线稿纹理特征和所述颜色引导信息，对所针对尺度下的噪声特征进行编码，获得多尺度的图像特征；对所述多尺度的图像特征进行多尺度的解码，获得上色图像；所述上色图像具备所述线稿图像的线稿纹理，且具有所述颜色引导信息所指示的颜色。采用本方法能够提高线稿上色的协调性和图像质量。

5.

发明公开
数据处理方法、装置、设备以及介质有权

公开(公告)号：CN116246213A

公开(公告)日：2023-06-09

申请号：CN202310506746.9

申请日：2023-05-08

Applicant: 腾讯科技(深圳)有限公司

Inventor： 项进喜 , 余剑扬 , 罗凤 , 关永航 , 赵创钿 , 张军 , 邵纪春

IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06F40/289 , G06F40/30 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/08

Abstract: 本申请实施例提供了一种数据处理方法、装置、设备以及介质，该方法可应用在视频评论生成、字幕生成以及视频内容理解等领域中。该方法包括：获取视频数据以及视频数据对应的视频配文数据；获取视频数据对应的视频表示信息，获取视频配文数据对应的文本表示信息；对视频表示信息进行时序采样处理，得到视频数据对应的视频时序采样信息，将视频时序采样信息和文本表示信息组合为多模态组合特征；对多模态组合特征进行编码处理得到多模态融合编码特征，对多模态融合编码特征进行文本解码处理，得到与视频数据相关联的视频内容描述文本。通过本申请实施例，可以提升视频内容的描述准确性。

6.

发明公开
图像增强方法、装置、设备、存储介质及程序产品审中-公开

公开(公告)号：CN117115023A

公开(公告)日：2023-11-24

申请号：CN202311058643.7

申请日：2023-08-21

Applicant: 腾讯科技(深圳)有限公司

Inventor： 罗凤 , 项进喜 , 张军

IPC: G06T5/00 , G06T3/40 , G06V10/44 , G06N3/0455 , G06N3/0464 , G06N3/045

Abstract: 本申请提供了一种图像增强方法、装置、设备、存储介质及程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；方法包括：获取待增强的对象图像的隐变量，并对所述隐变量添加噪声，得到所述对象图像的加噪隐变量，所述对象图像为目标对象的图像；提取所述对象图像中所述目标对象的对象结构特征；结合所述对象结构特征，对所述加噪隐变量进行去噪处理，得到所述对象图像的去噪隐变量；对所述去噪隐变量进行图像重建，得到所述对象图像的第一对象增强图像；通过本申请，能够提高对象图像的图像增强效果。

7.

发明公开
图像增强方法、装置、设备、存储介质及程序产品审中-公开

公开(公告)号：CN119515711A

公开(公告)日：2025-02-25

申请号：CN202311057364.9

申请日：2023-08-21

Applicant: 腾讯科技(深圳)有限公司

Inventor： 罗凤 , 项进喜 , 张军

IPC: G06T5/70 , G06T5/60 , G06V40/16 , G06V10/82 , G06N3/0455 , G06N3/0464 , G06N3/045

Abstract: 本申请提供了一种图像增强方法、装置、设备、存储介质及程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；方法包括：获取待增强的脸部图像的隐变量，并对所述隐变量添加噪声，得到所述脸部图像的加噪隐变量，所述脸部图像为目标对象的脸部的图像；提取所述脸部图像中所述脸部的脸部特征；结合所述脸部特征，对所述加噪隐变量进行去噪处理，得到所述脸部图像的去噪隐变量；对所述去噪隐变量进行图像重建，得到所述脸部图像的脸部增强图像；通过本申请，能够提高脸部图像的图像增强效果。

8.

发明授权
数据处理方法、装置、设备以及介质有权

公开(公告)号：CN116246213B

公开(公告)日：2023-07-28

申请号：CN202310506746.9

申请日：2023-05-08

Applicant: 腾讯科技(深圳)有限公司

Inventor： 项进喜 , 余剑扬 , 罗凤 , 关永航 , 赵创钿 , 张军 , 邵纪春

IPC: G06V20/40 , G06V10/80 , G06V10/82 , G06F40/289 , G06F40/30 , G06F18/25 , G06N3/0464 , G06N3/0442 , G06N3/0455 , G06N3/048 , G06N3/047 , G06N3/08

Abstract: 本申请实施例提供了一种数据处理方法、装置、设备以及介质，该方法可应用在视频评论生成、字幕生成以及视频内容理解等领域中。该方法包括：获取视频数据以及视频数据对应的视频配文数据；获取视频数据对应的视频表示信息，获取视频配文数据对应的文本表示信息；对视频表示信息进行时序采样处理，得到视频数据对应的视频时序采样信息，将视频时序采样信息和文本表示信息组合为多模态组合特征；对多模态组合特征进行编码处理得到多模态融合编码特征，对多模态融合编码特征进行文本解码处理，得到与视频数据相关联的视频内容描述文本。通过本申请实施例，可以提升视频内容的描述准确性。

9.

发明公开
图像处理方法、装置、计算机设备和计算机可读存储介质有权

公开(公告)号：CN116416342A

公开(公告)日：2023-07-11

申请号：CN202310687711.X

申请日：2023-06-12

Applicant: 腾讯科技(深圳)有限公司

Inventor： 项进喜 , 罗凤 , 张军

IPC: G06T11/40 , G06T7/10 , G06V10/40 , G06V10/56 , G06V10/54

Abstract: 本申请涉及一种图像处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取线稿图像，基于所述线稿图像提取多尺度的线稿纹理特征；获取从预设噪声图像中提取的所述多尺度的噪声特征；获取所述线稿图像对应的颜色引导信息；针对所述多尺度的每个尺度，参考所针对尺度的所述线稿纹理特征和所述颜色引导信息，对所针对尺度下的噪声特征进行编码，获得多尺度的图像特征；对所述多尺度的图像特征进行多尺度的解码，获得上色图像；所述上色图像具备所述线稿图像的线稿纹理，且具有所述颜色引导信息所指示的颜色。采用本方法能够提高线稿上色的协调性和图像质量。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification