-
公开(公告)号:CN118568225A
公开(公告)日:2024-08-30
申请号:CN202410680852.3
申请日:2024-05-29
Applicant: 河南众诚信息科技股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F16/583 , G06F40/30 , G06V10/25 , G06V10/44 , G06V10/771 , G06V10/80 , G06V10/82 , G06N5/04 , G06N3/0455 , G06N3/0464
Abstract: 本发明涉及计算机视觉技术领域,尤其涉及一种基于注意力机制联合密集结构与Transformer的视觉问答方法及系统,该方法包含:分析视觉问答问题的本质特点,基于统计分析理论,对视觉问答问题进行数学建模。针对已有视觉问答方法未考虑图像之间关联信息的不足,设计基于YOLOv7目标检测模型的训练数据集初始化方法。基于密集结构、注意力机制以及Transformer,构造视觉问答模型DensAttens‑Trans。针对所设计的DensAttens‑Trans模型,构造基于交叉熵损失的损失函数,并利用初始化后训练数据集完成对DensAttens‑Trans模型的训练工作,从而使得计算机系统理解和回答关于图像的自然语言问题。本发明给出更加鲁棒、拟合度高、实时性且符合人类思维的文本答案。