- 专利标题: 表格信息抽取方法、装置、存储介质及电子设备
-
申请号: CN202111594001.X申请日: 2021-12-24
-
公开(公告)号: CN113987112A公开(公告)日: 2022-01-28
- 发明人: 孙勇 , 丁雪纯 , 于业达 , 顾文斌 , 罗丰
- 申请人: 杭州恒生聚源信息技术有限公司 , 上海恒生聚源数据服务有限公司
- 申请人地址: 浙江省杭州市经济技术开发区白杨街道科技园路2号2撞1701-1714室;
- 专利权人: 杭州恒生聚源信息技术有限公司,上海恒生聚源数据服务有限公司
- 当前专利权人: 杭州恒生聚源信息技术有限公司,上海恒生聚源数据服务有限公司
- 当前专利权人地址: 浙江省杭州市经济技术开发区白杨街道科技园路2号2撞1701-1714室;
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 张丽娜
- 主分类号: G06F16/31
- IPC分类号: G06F16/31 ; G06F16/25
摘要:
本发明公开了一种表格信息抽取方法、装置、存储介质及电子设备,对目标表格中的合并数据进行预处理,得到二维矩阵;将二维矩阵的行和/或列数据输入到表头检测模型,得到表头检测结果,并确定目标表格的表格样式;根据与表格样式对应的处理模式,生成单元格文本序列和表头文本矩阵;获得目标字段文本与表头文本序列中每一文本的匹配结果,并获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立匹配结果对应的行或列的索引信息,以实现对目标单元进行信息抽取,得到抽取结果。本发明通过表头检测模型和表头文本序列的文本匹配处理更适用于复杂表格信息抽取,提升了复杂表格的信息抽取效率及准确性。
公开/授权文献
- CN113987112B 表格信息抽取方法、装置、存储介质及电子设备 公开/授权日:2022-04-08