一种基于CLIP的端到端场景文本识别方法

    公开(公告)号:CN117058667A

    公开(公告)日:2023-11-14

    申请号:CN202311154735.5

    申请日:2023-09-07

    摘要: 本发明公开了一种基于CLIP的端到端场景文本识别方法:通过对大规模视觉语言预训练模型CLIP进行改进,利用CLIP预训练好的图像编码器和文本编码器,引入了语言提示生成器、视觉提示生成器以及文本实例与语言匹配模块。通过借助CLIP中的语言知识,FastTCM能够有效辅助下游文本检测和端到端文本识别任务,从而显著提升了现有场景文本检测器和端到端文本识别器的准确度。此外还能增强在小样本学习情景下的表现,并提升模型的泛化能力。极大地拓展了场景文本检测和端到端文本识别的应用领域,有望在诸如图像标注、文档分析等领域发挥重要作用。通过整合语言和视觉信息为端到端场景文本识别提供了全新的范式,为深度学习技术在文本识别领域的发展做出了积极贡献。