-
公开(公告)号:CN115221388A
公开(公告)日:2022-10-21
申请号:CN202210886903.9
申请日:2022-07-26
申请人: 腾讯科技(深圳)有限公司
IPC分类号: G06F16/953 , G06K9/62 , G06N20/00
摘要: 本申请实施例公开了一种检索模型的训练方法和相关装置,可应用于车载场景。获取样本对中第一内容的第一向量以及第二内容的第二向量。第一向量和第二向量包括多个通道特征,各个通道特征表示的信息不同,将第一向量和第二向量输入至初始检索模型中,通过初始检索模型根据各个第一通道特征分别与至少两个第二通道特征间的关联性,得到第一向量与第二向量间的多个待定相似度,提高了不同向量包括的多个通道特征间的交互次数,加强了第一向量和第二向量间的信息交流。将多个待定相似度中最大的待定相似度作为第一向量与第二向量间的相似度,从而通过更为准确的相似度和样本标签训练初始模型的参数,得到的检索模型的准确性更高。
-
公开(公告)号:CN115204301A
公开(公告)日:2022-10-18
申请号:CN202210868349.1
申请日:2022-07-22
申请人: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
摘要: 本申请涉及一种视频文本匹配模型训练、视频文本匹配方法、装置、计算机设备、存储介质和计算机程序产品。本申请涉及人工智能技术。所述方法包括:将训练样本对集合中训练视频对应的视频特征、参考特征和训练文本对应的训练文本特征输入初始视频文本匹配模型;参考特征包括音频特征和动作特征中的至少一种;基于同一训练视频对应的参考特征对相应的视频特征进行特征增强,得到训练视频对应的参考增强视频特征;将训练文本对应的训练文本特征,分别和训练视频对应的视频特征、参考增强视频特征进行相似度计算;基于各个训练样本对所对应的相似度集合训练初始视频文本匹配模型,得到目标视频文本匹配模型。采用本方法能够提高模型预测准确性。
-
公开(公告)号:CN112037315A
公开(公告)日:2020-12-04
申请号:CN202010899254.7
申请日:2020-08-31
申请人: 中国科学院自动化研究所 , 腾讯科技(深圳)有限公司
摘要: 本申请公开了一种应用于人工智能领域的局部描述子生成方法,本申请包括获取待处理模型中每个局部顶点所对应的小波能量,得到M个小波能量;根据M个小波能量确定M个小波能量贡献值;根据M个小波能量贡献值确定M个能量特征向量;基于M个能量特征向量,通过图卷积神经网络获取待处理模型所对应的M个局部描述子。本申请还公开了一种模型生成的方法及装置,本申请可利用图卷积神经网络直接获取局部描述子,无需使用后处理的手段,很大程度上减少后处理的时间,提升生成局部描述子的效率。
-
公开(公告)号:CN117274069A
公开(公告)日:2023-12-22
申请号:CN202211160734.7
申请日:2022-09-22
申请人: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC分类号: G06T5/00 , G06T7/40 , G06N3/0464 , G06N3/08
摘要: 本申请公开了一种图像处理模型的训练方法、图像处理方法、装置及设备,属于图像处理技术领域。该训练方法包括:基于样本缺损图像中有效区域的纹理特征和样本缺损图像的粗略结构特征,对样本缺损图像中缺损区域的纹理特征进行填充,得到样本缺损图像的完整纹理特征;进一步地,基于完整纹理特征和粗略结构特征,得到样本缺损图像的细化结构特征;在基于完整纹理特征和细化结构特征得到样本缺损图像的预测修复图像之后,确定损失值,实现模型训练。由于上述方法实现了纹理特征和结构特征之间的交互引导,因此基于训练后的图像处理模型进行图像修复时,修复后的图像中缺损区域与有效区域的纹理和结构能够在精细程度上保持一致,图像修复效果较好。
-
公开(公告)号:CN117221464A
公开(公告)日:2023-12-12
申请号:CN202211170124.5
申请日:2022-09-26
申请人: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
摘要: 本公开的实施例提供了一种音视频数据处理方法、装置、设备和计算机可读存储介质。该方法利用驱动音视频和待驱动视频进行相互驱动,通过在双向驱动过程中对表情和姿态信息进行解耦合控制以建立可互相监督的多个视频对,从而基于这些视频对的相互监督生成具有驱动音视频的姿态和表情信息的最终合成视频。通过该方法能够在由于没有驱动音视频的成对视频数据而缺少监督信息的情况下将姿态和表情解耦合并且独立控制,并且可以直接建立被驱动图像和驱动图像之间的姿态和表情联系从而避免了隐式的中间结果所引入的额外误差,在能够直观地获得单独驱动姿态和表情中的任一种信息的处理结果的同时实现了更高效准确的音视频驱动的说话人脸视频生成。
-
公开(公告)号:CN113570511A
公开(公告)日:2021-10-29
申请号:CN202110075104.9
申请日:2021-01-20
申请人: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
摘要: 本申请公开了一种图像修复方法、装置、设备及介质,属于图像修复领域。方法包括:获取缺损图像和掩码图像,所述掩码图像用于指示所述缺损图像上的缺失区域;在至少两个尺度上对所述缺损图像上的所述缺失区域进行图像修复,将所述至少两个尺度上的修复结果进行融合,得到补全图像;所述至少两个尺度包括对所述缺损图像进行上采样或下采样后的分辨率尺度;输出所述补全图像。该方法在至少两个尺度上对缺损图像上的缺失区域进行图像修复,并将所述至少两个尺度上的修复结果进行融合,能更好地防止信息丢失,保全原始缺损图像的信息,使修复得到的补全图像更加清楚完整。
-
-
-
-
-