专利检索 ap:("华中科技大学") AND inv:"祝星馗" 第 1 页

1.

发明公开
一种基于CLIP的端到端场景文本识别方法审中-实审

公开(公告)号：CN117058667A

公开(公告)日：2023-11-14

申请号：CN202311154735.5

申请日：2023-09-07

申请人： 华中科技大学

发明人： 白翔 , 余文文 , 祝星馗 , 刘禹良

IPC分类号： G06V20/62 , G06V10/82 , G06N3/0464 , G06N3/08

摘要： 本发明公开了一种基于CLIP的端到端场景文本识别方法：通过对大规模视觉语言预训练模型CLIP进行改进，利用CLIP预训练好的图像编码器和文本编码器，引入了语言提示生成器、视觉提示生成器以及文本实例与语言匹配模块。通过借助CLIP中的语言知识，FastTCM能够有效辅助下游文本检测和端到端文本识别任务，从而显著提升了现有场景文本检测器和端到端文本识别器的准确度。此外还能增强在小样本学习情景下的表现，并提升模型的泛化能力。极大地拓展了场景文本检测和端到端文本识别的应用领域，有望在诸如图像标注、文档分析等领域发挥重要作用。通过整合语言和视觉信息为端到端场景文本识别提供了全新的范式，为深度学习技术在文本识别领域的发展做出了积极贡献。