- 专利标题: 一种基于标准字形生成的自然场景文字识别方法
-
申请号: CN201910716704.1申请日: 2019-08-05
-
公开(公告)号: CN112329803B公开(公告)日: 2022-08-26
- 发明人: 连宙辉 , 王逸之 , 唐英敏 , 肖建国
- 申请人: 北京大学
- 申请人地址: 北京市海淀区颐和园路5号
- 专利权人: 北京大学
- 当前专利权人: 北京大学
- 当前专利权人地址: 北京市海淀区颐和园路5号
- 代理机构: 北京万象新悦知识产权代理有限公司
- 代理商 黄凤茹
- 主分类号: G06K9/62
- IPC分类号: G06K9/62 ; G06V10/764 ; G06V10/82 ; G06V30/19 ; G06N3/04
摘要:
本发明公布了一种基于标准字形生成的文字识别方法,建立基于注意力机制和生成机制的神经网络模型,在每个时刻将注意力集中在图片的某个位置,利用该位置的神经网络特征,分别进行文字类别的预测和生成多字体标准字形,直到遍历图片中的所有文字为止,实现对一张包含一个或多个文字的自然场景图片中的文字进行识别和输出。本发明利用多字体字形生成,改进了注意力模块,提高了文字识别精度和字形生成质量,从而提升了文字识别的准确度。
公开/授权文献
- CN112329803A 一种基于标准字形生成的自然场景文字识别方法 公开/授权日:2021-02-05