一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置

    公开(公告)号:CN118674828A

    公开(公告)日:2024-09-20

    申请号:CN202410631985.1

    申请日:2024-05-21

    申请人: 浙江大学

    摘要: 本发明公开了一种基于多参考自注意力机制的多概念组合定制图像生成方法和装置,属于计算机视觉技术领域,包括:获取图像组的隐向量和加权掩膜,隐向量前向加噪得到带噪隐向量;将带噪隐向量和高斯噪声隐向量以及各自对应的文本描述符同步输入U‑Net反向去噪,分别以带噪隐向量和高斯噪声隐向量的降噪过程作为概念参考路径和概念组合路径;将概念参考路径的键值对特征与概念组合路径的键值对特征组合,采用加权掩膜策略并执行多参考自注意力机制,得到目标图像。本发明能够迅速生成与输入概念高度一致的高质量多概念组合定制图像,无需繁琐的模型参数调整或训练过程,尤其在处理多样化概念类别时表现出卓越的灵活性和鲁棒性。