基于因果推理的图像标题自动生成方法

    公开(公告)号:CN115239944A

    公开(公告)日:2022-10-25

    申请号:CN202210661517.X

    申请日:2022-06-13

    Abstract: 本发明公开了一种基于因果图的因果推理图像字幕生成方法,适用于在图像字幕中使用。构建基于详细的因果图的因果推理方法图像字幕CIIC框架,包括非对齐特征Transformer编码器和干预式Transformer解码器,非对齐特Transformer解码器包括顺序连接的FASTERR‑CNN、干预式目标检测器IOD和标准的Transformer编码器;干预式Transformer解码器为在标准的Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成;干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文本混淆因子对输入图像先进行编码,然后进行解码。通过后门调整能够消除混淆,有效解决传统图像描述中对编码图像中纠缠的视觉特征问题,图像描述中具有较强的鲁棒性。

Patent Agency Ranking