-
公开(公告)号:CN117765520A
公开(公告)日:2024-03-26
申请号:CN202311573331.X
申请日:2023-11-23
Applicant: 中国科学院信息工程研究所
IPC: G06V20/62 , G06V20/70 , G06V10/82 , G06V10/764 , G06V10/766 , G06V10/74 , G06N3/0464 , G06N3/044 , G06N3/0442 , G06N3/0499 , G06N3/0895
Abstract: 本发明公开一种高效准确的歧义场景文字检测方法及系统,属于图像文字识别领域,使用基于Mask R‑CNN结构的文本检测分支检测场景图像中的文本,生成文本候选框;使用歧义感知模块检测场景图像的文本块,将文本块与文本候选框进行匹配及关联,分析文本块中所有文本候选框之间的连接情况,找出有歧义的文本块;构建由图像编码器、文本编码器和跨模态编码器组成的语义感知模块,通过对比学习、匹配预测和掩码预测来训练该语义感知模块;使用训练好的语义感知模块对有歧义的文本块进行场景文字检测。本发明能够高效准确地检测歧义文字,并提高识别的准确率。
-
公开(公告)号:CN119579733A
公开(公告)日:2025-03-07
申请号:CN202411423694.X
申请日:2024-10-12
Applicant: 中国科学院信息工程研究所
IPC: G06T11/60 , G06N3/0464 , G06N3/0455
Abstract: 本发明涉及计算机技术领域,具体为具有场景文字的图像生成方法。本发明通过获取文本描述;基于文本描述获得背景图像、待生成文字和文本区域;基于所述背景图像通过自适应本文块探索策略得到局部图像;通过所述待生成文字得到文字图像;基于所述局部图像和文字图像得到条件嵌入;基于所述文本区域建立图像指导;将所述条件嵌入和所述图像指导输入卷积神经网络得到解码图像;所述解码图像中文字生成由所述待生成文字和所述文本区域确定。解决了图像生成时小文字生成的问题并提高文字生成的准确率,使得图像生成时小文本渲染效果优良。
-