一种Vision Transformer模型结构优化系统、方法、介质
摘要:
本发明属于深度学习技术领域,特别涉及一种图像处理优化方法。一种Vision Transformer模型结构优化方法,包括以下步骤:S1.将图片数据利用图片块映射层,先切割为图片块后再分别处理为高维向量;S2.利用级联的优化的Transformer编码器,将所述高维向量进行建模。本发明通过有效结合卷积神经网络与Transformer中的多头注意力层,向Vision Transformer中有效的引入的归纳偏置,提高了模型对图片/图像数据的建模性能。相较于原始的Vision Transformer模型,本发明能够更加高效地给出图片/图像数据的建模结果。同时,本发明还公开了一种Vision Transformer模型结构优化系统及介质。
0/0