一种从PDF文档中抽取表格数据和篇章结构的方法
摘要:
本发明涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;从带有篇章结构的PDF文件进行裁剪;对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;将表格以html页面进行展示,完成抽取。本发明能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互;可以在数据处理领域中应用。
0/0