-
公开(公告)号:CN118799646A
公开(公告)日:2024-10-18
申请号:CN202411084301.7
申请日:2024-08-08
申请人: 四川省数字经济研究院(宜宾) , 电子科技大学
IPC分类号: G06V10/764 , G06V10/80 , G06V10/82 , G06N3/0455 , G06N3/084 , G06V10/74
摘要: 本发明公开了一种基于特征融合及语义增强的细粒度图像分类方法。该方法包括以下步骤:首先,利用视觉Transformer(ViT)模型进行特征提取,将输入图像分割成不重叠的patch,通过线性投影转换为嵌入向量,并输入Transformer编码器生成全局特征。接着,通过多层次注意力融合与语义信息结合,提取每层Transformer中的注意力权重,并结合预训练语言模型生成的语义嵌入,计算每个token的重要性分数,选择关键token。然后,对关键token进行二次分块和投影,重新选择二次关键token。通过交叉注意力机制,将全局特征和局部特征进行融合,生成融合特征。最后,将融合特征与全局分类特征结合,输入分类器进行分类,生成分类输出。通过多层次注意力融合和语义增强以及关键token选择,本发明实现对细粒度图像判别性特征区域的准确定位,增强特征的判别性,提高分类准确性。