发明公开
- 专利标题: 基于OCR的自定义模板图像识别方法、系统及存储介质
-
申请号: CN202311231362.7申请日: 2023-09-22
-
公开(公告)号: CN117333893A公开(公告)日: 2024-01-02
- 发明人: 孙觉予 , 宋卫平 , 李欢欢 , 徐小云 , 杨帆 , 阮正平 , 佘文魁 , 邓大建 , 王红蕾 , 叶鑫平 , 李军
- 申请人: 四川中电启明星信息技术有限公司
- 申请人地址: 四川省成都市郫都区现代工业港(南片区)西源大道2688号
- 专利权人: 四川中电启明星信息技术有限公司
- 当前专利权人: 四川中电启明星信息技术有限公司
- 当前专利权人地址: 四川省成都市郫都区现代工业港(南片区)西源大道2688号
- 代理机构: 成都君合集专利代理事务所
- 代理商 尹玉
- 主分类号: G06V30/42
- IPC分类号: G06V30/42 ; G06V30/19 ; G06V30/16 ; G06F40/289 ; G06F40/232
摘要:
本发明公开了基于OCR的自定义模板图像识别方法、系统及存储介质,对图像进行OCR识别,最终实现将识别文本转换为结构化数据,然后,基于自然语言处理技术对结构化数据信息进行错误矫正;通过自然语言技术对于所识别文字进行分词处理,从字粒度以及词粒度两方面检测错误所形成的疑似错误结果并进行错误纠正,遍历所有错误信息位置并使用形近词典替换错误位置的词,然后通过语言模型再次进行计算,得到最优纠正词进行替换。本发明通过对结构化数据的分词识别实现确定结构化数据的正确性、完整性,并对于识别错误的情况进行更正,从而实现对于结构化数据的校验,具有较好的实用性。