一种基于机器学习的表格抽取方法

发明授权

请登陆查看更多内容

专利标题： 一种基于机器学习的表格抽取方法
申请号： CN202010219328.8

申请日： 2020-03-25
公开(公告)号： CN111401010B

公开(公告)日： 2023-07-28
发明人: 李鑫 , 郑磊 , 鲍琦
申请人： 苏州机数芯微科技有限公司
申请人地址： 江苏省苏州市苏州工业园区金鸡湖大道99号苏州纳米城1幢505-3室
专利权人： 苏州机数芯微科技有限公司
当前专利权人： 合肥机数量子科技有限公司
当前专利权人地址： 230088 安徽省合肥市高新区创新大道与望江西路交口东北角中新网安大厦11层1102-A009室
代理机构： 合肥金律专利代理事务所
代理商 段晓微
主分类号： G06F40/154
IPC分类号： G06F40/154 ; G06F40/169 ; G06F40/174 ; G06F40/279 ; G06F16/11 ; G06N20/00

摘要：

本发明提出的一种基于机器学习的表格抽取方法，包括：对原始xml文件进行预处理，获得预先选择的自动提取工具可识别的新xml文件；将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表；将表格标题和脚注从二维列表中分离出来，然后识别跨列子标题，并把子标题填充到对应的列；通过机器学习，区分出表头所在行的范围，然后合并表头；对跨行数据进行合并，获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容，保证了对xml文件信息的精确和完整的抽取。

公开/授权文献

CN111401010A 一种基于机器学习的表格抽取方法公开/授权日：2020-07-10

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/10	.文本处理（自然语言分析G06F 40/20;语义分析G06F 40/30;自然语言处理或翻译G06F 40/40）
G06F40/12	..使用代码处理文本实体
G06F40/151	...转换
G06F40/154	....树结构或标记文档的树转换，例如，XSLT，XSL-FO或样式表