一种Vision Transformer模型结构优化系统、方法、介质

发明授权

CN116091842B 一种Vision Transformer模型结构优化系统、方法、介质有权

请登陆查看更多内容

专利标题： 一种Vision Transformer模型结构优化系统、方法、介质
申请号： CN202310177844.2

申请日： 2023-02-23
公开(公告)号： CN116091842B

公开(公告)日： 2023-10-27
发明人: 王敬超 , 夏瑞 , 邓博于 , 任双印 , 薛超
申请人： 中国人民解放军军事科学院系统工程研究院
申请人地址： 北京市丰台区丰体南路甲2号院
专利权人： 中国人民解放军军事科学院系统工程研究院
当前专利权人： 中国人民解放军军事科学院系统工程研究院
当前专利权人地址： 北京市丰台区丰体南路甲2号院
代理机构： 北京启知服知识产权代理有限公司
代理商 肖丛
主分类号： G06V10/764
IPC分类号： G06V10/764 ; G06V10/82 ; G06V10/26 ; G06N3/0455 ; G06N3/0464 ; G06N3/08

摘要：

本发明属于深度学习技术领域，特别涉及一种图像处理优化方法。一种Vision Transformer模型结构优化方法，包括以下步骤：S1.将图片数据利用图片块映射层，先切割为图片块后再分别处理为高维向量；S2.利用级联的优化的Transformer编码器，将所述高维向量进行建模。本发明通过有效结合卷积神经网络与Transformer中的多头注意力层，向Vision Transformer中有效的引入的归纳偏置，提高了模型对图片/图像数据的建模性能。相较于原始的Vision Transformer模型，本发明能够更加高效地给出图片/图像数据的建模结果。同时，本发明还公开了一种Vision Transformer模型结构优化系统及介质。

公开/授权文献

CN116091842A 一种Vision Transformer模型结构优化系统、方法、介质公开/授权日：2023-05-09

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V10/00	图像或视频识别或理解的安排（图像或视频中的字符识别 G06V30/10）
G06V10/70	.使用模式识别或机器学习（光学模式识别或电子计算 G06V10/88）
G06V10/764	..使用分类，例如视频对象