-
公开(公告)号:CN118736575A
公开(公告)日:2024-10-01
申请号:CN202410807697.7
申请日:2024-06-21
申请人: 中国矿业大学
IPC分类号: G06V20/70 , G06V10/80 , G06V10/82 , G06V10/44 , G06N3/0455 , G06N3/045 , G06N3/0499 , G06N3/0464 , G06N3/084
摘要: 本发明提出一种基于增强注意力机制的端到端图像描述生成方法,属于人工智能技术领域。生成图像描述生成模型,包括图像特征抽取层、多粒度特征融合编码器、自适应双向解图码器、线性变换层和打分排序层;对图像描述生成模型使用交叉熵损失进行训练,然后采用自我批评训练优化CIDEr评分优化,并利用完成训练的图像描述生成模型描述图像。其评价指标上超越了现有技术,本发明的图像描述方法不仅提高了图像语义理解能力,而且更贴近人类描述习惯,具有良好的可解释性。