- 专利标题: 基于文本识别的要素信息提取方法、装置、设备及介质
-
申请号: CN202111094018.9申请日: 2021-09-17
-
公开(公告)号: CN113536771B公开(公告)日: 2021-12-24
- 发明人: 杨东泉 , 程佳宇 , 王天星 , 钱启
- 申请人: 深圳前海环融联易信息科技服务有限公司
- 申请人地址: 广东省深圳市前海深港合作区前湾一路1号A栋201室
- 专利权人: 深圳前海环融联易信息科技服务有限公司
- 当前专利权人: 深圳前海环融联易信息科技服务有限公司
- 当前专利权人地址: 广东省深圳市前海深港合作区前湾一路1号A栋201室
- 代理机构: 深圳市精英专利事务所
- 代理商 涂年影
- 主分类号: G06F40/205
- IPC分类号: G06F40/205 ; G06F40/126 ; G06F40/242 ; G06K9/32 ; G06K9/34
摘要:
本发明公开了基于文本识别的要素信息提取方法、装置、设备及介质,方法包括:对初始文档进行分页识别以获取文档信息页,根据初始文本识别模型从文档信息页中获取初始文本信息,若文档信息页中包含未识别文档内容,根据手写体识别模型对未识别内容进行识别得到手写体文本信息,根据文本纠错模型对初始文本信息及手写体文本信息进行文本纠错处理得到纠错文本信息并根据要素提取规则从中提取文本要素信息。本发明属于文本识别技术领域,通过初始文本识别模型及手写体识别模型相结合进行文本识别得到文本信息,进行文本纠错处理后提取文本要素信息,大幅提升了进行文本要素信息提取的灵活性,基于文本纠错处理可大幅提高获取文本要素信息的准确性。
公开/授权文献
- CN113536771A 基于文本识别的要素信息提取方法、装置、设备及介质 公开/授权日:2021-10-22