-
公开(公告)号:CN115239944A
公开(公告)日:2022-10-25
申请号:CN202210661517.X
申请日:2022-06-13
Applicant: 中国矿业大学
IPC: G06V10/25 , G06V10/40 , G06V10/82 , G06V10/764 , G06V10/44 , G06V10/80 , G06V20/62 , G06N3/04 , G06N3/08 , G06N5/04
Abstract: 本发明公开了一种基于因果图的因果推理图像字幕生成方法,适用于在图像字幕中使用。构建基于详细的因果图的因果推理方法图像字幕CIIC框架,包括非对齐特征Transformer编码器和干预式Transformer解码器,非对齐特Transformer解码器包括顺序连接的FASTERR‑CNN、干预式目标检测器IOD和标准的Transformer编码器;干预式Transformer解码器为在标准的Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成;干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文本混淆因子对输入图像先进行编码,然后进行解码。通过后门调整能够消除混淆,有效解决传统图像描述中对编码图像中纠缠的视觉特征问题,图像描述中具有较强的鲁棒性。