计算机视觉模型预训练方法、装置、计算机设备及介质

发明公开

CN117876820A 计算机视觉模型预训练方法、装置、计算机设备及介质审中-实审

请登陆查看更多内容

专利标题： 计算机视觉模型预训练方法、装置、计算机设备及介质
申请号： CN202410038875.4

申请日： 2024-01-10
公开(公告)号： CN117876820A

公开(公告)日： 2024-04-12
发明人: 王博 , 张希 , 王勇 , 陈江琦 , 王进 , 徐康 , 陈霞
申请人： 国网智能电网研究院有限公司 , 国网山东省电力公司 , 国网山东省电力公司济南供电公司 , 国家电网有限公司
申请人地址： 北京市昌平区未来科技城滨河大道18号; ; ;
专利权人： 国网智能电网研究院有限公司,国网山东省电力公司,国网山东省电力公司济南供电公司,国家电网有限公司
当前专利权人： 国网智能电网研究院有限公司,国网山东省电力公司,国网山东省电力公司济南供电公司,国家电网有限公司
当前专利权人地址： 北京市昌平区未来科技城滨河大道18号; ; ;
代理机构： 北京三聚阳光知识产权代理有限公司
代理商 李静玉
主分类号： G06V10/774
IPC分类号： G06V10/774 ; G06V10/82 ; G06N3/0464 ; G06N3/0455 ; G06N3/08

摘要：

本发明涉及人工智能技术领域，具体涉及计算机视觉模型预训练方法、装置、计算机设备及介质。该方法包括：获取训练样本和预设掩码比例，根据预设掩码比例将多个图像块随机平均划分得到图像块的分组结果；基于分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵；采用掩码矩阵和采用基于局部自注意力的Transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练。通过实施本发明，采用掩码注意力矩阵进行Transformer模型的预训练时，每进行一次自注意力计算，等价于同时处理固定个数带掩码的样本，同时也解决了每个窗口可见patch数量不一致难以并行的问题。

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V10/00	图像或视频识别或理解的安排（图像或视频中的字符识别 G06V30/10）
G06V10/70	.使用模式识别或机器学习（光学模式识别或电子计算 G06V10/88）
G06V10/77	..处理特征空间中的图像或视频特征；使用数据集成或数据缩减，例如主成分分析 [PCA] 或独立成分分析 [ICA] 或自组织图 [SOM]；盲源分离
G06V10/774	...生成训练模式集；引导方法，例如捕获或促进