一种基于机器学习的表格抽取方法
摘要:
本发明提出的一种基于机器学习的表格抽取方法,包括:对原始xml文件进行预处理,获得预先选择的自动提取工具可识别的新xml文件;将新xml文件通过自动提取工具进行识别并转换成python可识别的二维列表;将表格标题和脚注从二维列表中分离出来,然后识别跨列子标题,并把子标题填充到对应的列;通过机器学习,区分出表头所在行的范围,然后合并表头;对跨行数据进行合并,获得最终表格数据。本发明实现了基于机器学习从格式为xml的文件中抽取清洗表格内容,保证了对xml文件信息的精确和完整的抽取。
公开/授权文献
0/0