-
公开(公告)号:CN115311605B
公开(公告)日:2023-01-03
申请号:CN202211195726.6
申请日:2022-09-29
申请人: 山东大学 , 哈尔滨工业大学(深圳) , 浙江猫精人工智能科技有限公司
IPC分类号: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/778 , G06V10/82 , G06N3/08
摘要: 本发明属于计算机视觉视频分类领域,为了解决现有技术对视频中的运动信息挖掘不足,引入监督信号过少,模型训练效率低下以及学习到的特征判别性不足,这些均导致视频分类的准确率较低的问题,提供基于近邻一致性和对比学习的半监督视频分类方法及系统。其中基于近邻一致性和对比学习的半监督视频分类方法包括提取待分类视频样本的RGB帧图像;基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,将概率最大的类别作为分类结果;其基于教师‑学生网络对视频进行分类,能够在仅有少量标注数据的情况下提高视频分类的准确性。
-
公开(公告)号:CN115311605A
公开(公告)日:2022-11-08
申请号:CN202211195726.6
申请日:2022-09-29
申请人: 山东大学 , 哈尔滨工业大学(深圳) , 浙江猫精人工智能科技有限公司
IPC分类号: G06V20/40 , G06V10/764 , G06V10/774 , G06V10/778 , G06V10/82 , G06N3/08
摘要: 本发明属于计算机视觉视频分类领域,为了解决现有技术对视频中的运动信息挖掘不足,引入监督信号过少,模型训练效率低下以及学习到的特征判别性不足,这些均导致视频分类的准确率较低的问题,提供基于近邻一致性和对比学习的半监督视频分类方法及系统。其中基于近邻一致性和对比学习的半监督视频分类方法包括提取待分类视频样本的RGB帧图像;基于RGB帧图像及训练好的教师网络,得到所有视频分类的预测分布,将概率最大的类别作为分类结果;其基于教师‑学生网络对视频进行分类,能够在仅有少量标注数据的情况下提高视频分类的准确性。
-
公开(公告)号:CN117593215A
公开(公告)日:2024-02-23
申请号:CN202410077241.X
申请日:2024-01-19
摘要: 本发明属于图像自监督预训练领域,为解决生成模型生成图像的准确性差的问题,提供一种生成模型增强的大规模视觉预训练方法及系统。其中,生成模型增强的大规模视觉预训练方法包括利用预训练的生成模型,自适应生成原始图像所对应的正视图;对原始图像和正视图进行数据增强,生成增强后的正样本对,使用预训练的图像编码器提取正样本对的特征表示;根据正样本对的特征表示,计算注意力掩码来分隔前景区域和背景区域;评估正样本对的质量来调整每个正样本对在训练生成模型过程中对整体损失的贡献,计算每个正样本对的重新加权因子,得到最终损失函数,以确定是否继续训练生成模型,其能够减轻低质量和错误图像对生成模型生成图像准确性的影响。
-
公开(公告)号:CN117593215B
公开(公告)日:2024-03-29
申请号:CN202410077241.X
申请日:2024-01-19
摘要: 本发明属于图像自监督预训练领域,为解决生成模型生成图像的准确性差的问题,提供一种生成模型增强的大规模视觉预训练方法及系统。其中,生成模型增强的大规模视觉预训练方法包括利用预训练的生成模型,自适应生成原始图像所对应的正视图;对原始图像和正视图进行数据增强,生成增强后的正样本对,使用预训练的图像编码器提取正样本对的特征表示;根据正样本对的特征表示,计算注意力掩码来分隔前景区域和背景区域;评估正样本对的质量来调整每个正样本对在训练生成模型过程中对整体损失的贡献,计算每个正样本对的重新加权因子,得到最终损失函数,以确定是否继续训练生成模型,其能够减轻低质量和错误图像对生成模型生成图像准确性的影响。
-
-
-