-
公开(公告)号:CN116682120A
公开(公告)日:2023-09-01
申请号:CN202310524256.1
申请日:2023-05-08
申请人: 华中科技大学
IPC分类号: G06V30/19 , G06V10/82 , G06N3/0464
摘要: 本发明受人类视觉皮层观察‑练习‑完善的识别过程,提出了一种马赛克文字识别方法:采用合成数据以及公开基准数据集构造原始图像‑马赛克图像数据对;首先将马赛克图像数据送入“观察”模块的图像编码器中层次化提取特征;然后通过重建模块对图像初步恢复;受掩码自回归编码器的启发使用自监督学习来模仿人类的“练习”过程,由视觉自注意力模块预测像素值;最后“完善”模块的去噪扩散概率模型训练U型神经网络预测每一步的噪声实现迭代优化;通过反向传播优化权重参数;由开源识别网络或云服务API识别字符序列。本发明为多语种马赛克文本图像识别难题贡献了一种思路和可行方案。
-
公开(公告)号:CN116434732A
公开(公告)日:2023-07-14
申请号:CN202310111405.1
申请日:2023-02-07
申请人: 华中科技大学
IPC分类号: G10L13/08 , G10L15/16 , G10L15/26 , G06N3/0455 , G06N3/0464 , G06N3/08
摘要: 本发明提出了一种基于可插拔模块的深度学习语音辅助文字识别方法:使用公开合成文本数据集作为图片训练数据,并提取出标签作为语料库,使用语音合成工具配对生成一定数量的语音数据;将图片‑语音数据送入识别网络中,分别得到图像特征和语音特征;将图像特征送入识别解码器,输出预测的字符序列;将可插拔模块接入场景文字识别网络,图像特征和语音特征经过可插拔模块中的语音解码器得到频谱特征;识别网络计算识别损失,可插拔模块计算语音频谱损失,反向传播优化识别网络权重参数;将可插拔模块拔出,由识别网络完成场景文字图像的识别。本发明使用语音信息以指导现有的场景文本识别网络,使其可以很容易的应用于现有的场景文字识别网络。
-
公开(公告)号:CN117058667A
公开(公告)日:2023-11-14
申请号:CN202311154735.5
申请日:2023-09-07
申请人: 华中科技大学
IPC分类号: G06V20/62 , G06V10/82 , G06N3/0464 , G06N3/08
摘要: 本发明公开了一种基于CLIP的端到端场景文本识别方法:通过对大规模视觉语言预训练模型CLIP进行改进,利用CLIP预训练好的图像编码器和文本编码器,引入了语言提示生成器、视觉提示生成器以及文本实例与语言匹配模块。通过借助CLIP中的语言知识,FastTCM能够有效辅助下游文本检测和端到端文本识别任务,从而显著提升了现有场景文本检测器和端到端文本识别器的准确度。此外还能增强在小样本学习情景下的表现,并提升模型的泛化能力。极大地拓展了场景文本检测和端到端文本识别的应用领域,有望在诸如图像标注、文档分析等领域发挥重要作用。通过整合语言和视觉信息为端到端场景文本识别提供了全新的范式,为深度学习技术在文本识别领域的发展做出了积极贡献。
-
-