发明公开
- 专利标题: 计算机视觉模型预训练方法、装置、计算机设备及介质
-
申请号: CN202410038875.4申请日: 2024-01-10
-
公开(公告)号: CN117876820A公开(公告)日: 2024-04-12
- 发明人: 王博 , 张希 , 王勇 , 陈江琦 , 王进 , 徐康 , 陈霞
- 申请人: 国网智能电网研究院有限公司 , 国网山东省电力公司 , 国网山东省电力公司济南供电公司 , 国家电网有限公司
- 申请人地址: 北京市昌平区未来科技城滨河大道18号; ; ;
- 专利权人: 国网智能电网研究院有限公司,国网山东省电力公司,国网山东省电力公司济南供电公司,国家电网有限公司
- 当前专利权人: 国网智能电网研究院有限公司,国网山东省电力公司,国网山东省电力公司济南供电公司,国家电网有限公司
- 当前专利权人地址: 北京市昌平区未来科技城滨河大道18号; ; ;
- 代理机构: 北京三聚阳光知识产权代理有限公司
- 代理商 李静玉
- 主分类号: G06V10/774
- IPC分类号: G06V10/774 ; G06V10/82 ; G06N3/0464 ; G06N3/0455 ; G06N3/08
摘要:
本发明涉及人工智能技术领域,具体涉及计算机视觉模型预训练方法、装置、计算机设备及介质。该方法包括:获取训练样本和预设掩码比例,根据预设掩码比例将多个图像块随机平均划分得到图像块的分组结果;基于分组结果确定的不同stage下的分组矩阵构造多个掩码矩阵;采用掩码矩阵和采用基于局部自注意力的Transformer模型确定的注意力矩阵构建掩码注意力矩阵进行预训练。通过实施本发明,采用掩码注意力矩阵进行Transformer模型的预训练时,每进行一次自注意力计算,等价于同时处理固定个数带掩码的样本,同时也解决了每个窗口可见patch数量不一致难以并行的问题。