发明授权
- 专利标题: 一种基于机器学习的表格抽取方法
-
申请号: CN202010219328.8申请日: 2020-03-25
-
公开(公告)号: CN111401010B公开(公告)日: 2023-07-28
- 发明人: 李鑫 , 郑磊 , 鲍琦
- 申请人: 苏州机数芯微科技有限公司
- 申请人地址: 江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室
- 专利权人: 苏州机数芯微科技有限公司
- 当前专利权人: 合肥机数量子科技有限公司
- 当前专利权人地址: 230088 安徽省合肥市高新区创新大道与望江西路交口东北角中新网安大厦11层1102-A009室
- 代理机构: 合肥金律专利代理事务所
- 代理商 段晓微
- 主分类号: G06F40/154
- IPC分类号: G06F40/154 ; G06F40/169 ; G06F40/174 ; G06F40/279 ; G06F16/11 ; G06N20/00
摘要:
本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。
公开/授权文献
- CN111401010A 一种基于机器学习的表格抽取方法 公开/授权日:2020-07-10