基于扩散模型的无训练指代图像分割方法

    公开(公告)号:CN116994258A

    公开(公告)日:2023-11-03

    申请号:CN202310971667.5

    申请日:2023-08-03

    Abstract: 一种基于扩散模型的无训练指代图像分割方法,属于计算机视觉中的指代图像分割领域。本发明针对现有数据匮乏情况下,难以实现指代图像分割的问题。包括:获取要进行指代图像分割的原始图像和文本,对原始图像增加高斯噪声后,经生成器得到交叉注意力函数的全部计算结果矩阵;在交叉注意力函数的全部计算结果矩阵中确定与核心词语位置对应的所有目标矩阵;再利用双线性插值算法对目标矩阵进行扩张,再均值化得到指代关系矩阵;再采用SAM模型对原始图像进行分割,得到多个候选分割结果矩阵;计算每个候选分割结果矩阵与指代关系矩阵的相似度,选择相似度最高的候选分割结果矩阵作为指代图像分割结果。本发明实现了无训练指代图像分割。

Patent Agency Ranking