- 专利标题: 一种融合语言模型的光学字符识别方法、装置和电子设备
-
申请号: CN202010867945.9申请日: 2020-08-26
-
公开(公告)号: CN111738251A公开(公告)日: 2020-10-02
- 发明人: 钱泓锦 , 刘占亮 , 窦志成 , 刘家俊
- 申请人: 北京智源人工智能研究院
- 申请人地址: 北京市海淀区中关村南大街1号北京友谊宾馆苏园东北角楼及后院66012-3层61342房间
- 专利权人: 北京智源人工智能研究院
- 当前专利权人: 北京智源人工智能研究院
- 当前专利权人地址: 北京市海淀区中关村南大街1号北京友谊宾馆苏园东北角楼及后院66012-3层61342房间
- 代理机构: 北京动力号知识产权代理有限公司
- 代理商 梁艳
- 主分类号: G06K9/20
- IPC分类号: G06K9/20 ; G06K9/62 ; G06N3/04 ; G06N3/08
摘要:
本发明公开了一种融合语言模型的光学字符识别方法、装置和电子设备。该方法包括:提取待识别文字图片的视觉特征向量;对所述视觉特征向量进行预分类得到预分类文本序列;利用预先训练的语言模型,根据所述预分类文本序列提取语义特征向量;根据所述视觉特征向量和语义特征向量对所述待识别的文字图片进行最终分类,得到识别结果。本发明提高了OCR模型文本识别的准确率以及对于质量较差的文本图片的鲁棒性。
公开/授权文献
- CN111738251B 一种融合语言模型的光学字符识别方法、装置和电子设备 公开/授权日:2020-12-04