- 专利标题: 一种从PDF文档中抽取表格数据和篇章结构的方法
-
申请号: CN201911017195.X申请日: 2019-10-24
-
公开(公告)号: CN110765739B公开(公告)日: 2023-10-10
- 发明人: 范举 , 韩涵 , 卢卫 , 杜小勇
- 申请人: 中国人民大学
- 申请人地址: 北京市海淀区中关村大街59号中国人民大学信息学院
- 专利权人: 中国人民大学
- 当前专利权人: 中国人民大学
- 当前专利权人地址: 北京市海淀区中关村大街59号中国人民大学信息学院
- 代理机构: 北京纪凯知识产权代理有限公司
- 代理商 孙楠
- 主分类号: G06F40/137
- IPC分类号: G06F40/137 ; G06F40/131 ; G06F40/18 ; G06F40/177 ; G06V30/412
摘要:
本发明涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法,其步骤:从PDF文件中进行章节抽取,得到带有篇章结构的PDF文件;从带有篇章结构的PDF文件进行裁剪;对裁剪后的PDF文件进行表格抽取,同时,对章节号和章节名也进行表格抽取,得到表格;将表格以html页面进行展示,完成抽取。本发明能自动化提取数据,提供一套浏览器端的操作界面,有良好的用户交互;可以在数据处理领域中应用。
公开/授权文献
- CN110765739A 一种从PDF文档中抽取表格数据和篇章结构的方法 公开/授权日:2020-02-07