一种生成式图像先验的场景文字图像超分辨方法

    公开(公告)号:CN119941509A

    公开(公告)日:2025-05-06

    申请号:CN202510014159.7

    申请日:2025-01-06

    Abstract: 本发明公开了一种生成式图像先验的场景文字图像超分辨方法,该方法包含两个阶段;第一个阶段,构建一个基于多模态的扩散模型,使用GPT模型从低分辨率文字图像中获得特定的文本信息,生成高分辨率图像先验;第二个阶段,构建一个ITPGDM模型,通过高分辨率图像先验和文字识别先验重构高分辨率文字图像,ITPGDM模型包括PSAB模块和CFAB模块,PSAB模块用于将不同先验信息对齐,CFAB模块用于细化字符级特征;所述ITPGDM模型表示基于图像和文本先验引导的场景文本图片超分辨扩散模型,PSAB模块表示先验语义对齐模块,CFAB模块表示字符关注模块。本发明方法充分利用了扩散模型和GPT模型的强大优势,并使用多先验语义对齐模块和字符关注模块增强场景文字图像超分辨的能力。

Patent Agency Ranking