一种从PDF文档中抽取表格数据和篇章结构的方法

发明授权

CN110765739B 一种从PDF文档中抽取表格数据和篇章结构的方法有权

请登陆查看更多内容

专利标题： 一种从PDF文档中抽取表格数据和篇章结构的方法
申请号： CN201911017195.X

申请日： 2019-10-24
公开(公告)号： CN110765739B

公开(公告)日： 2023-10-10
发明人: 范举 , 韩涵 , 卢卫 , 杜小勇
申请人： 中国人民大学
申请人地址： 北京市海淀区中关村大街59号中国人民大学信息学院
专利权人： 中国人民大学
当前专利权人： 中国人民大学
当前专利权人地址： 北京市海淀区中关村大街59号中国人民大学信息学院
代理机构： 北京纪凯知识产权代理有限公司
代理商 孙楠
主分类号： G06F40/137
IPC分类号： G06F40/137 ; G06F40/131 ; G06F40/18 ; G06F40/177 ; G06V30/412

摘要：

本发明涉及一种从PDF文档中自动抽取表格数据和篇章结构的方法，其步骤：从PDF文件中进行章节抽取，得到带有篇章结构的PDF文件；从带有篇章结构的PDF文件进行裁剪；对裁剪后的PDF文件进行表格抽取，同时，对章节号和章节名也进行表格抽取，得到表格；将表格以html页面进行展示，完成抽取。本发明能自动化提取数据，提供一套浏览器端的操作界面，有良好的用户交互；可以在数据处理领域中应用。

公开/授权文献

CN110765739A 一种从PDF文档中抽取表格数据和篇章结构的方法公开/授权日：2020-02-07

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/10	.文本处理（自然语言分析G06F 40/20;语义分析G06F 40/30;自然语言处理或翻译G06F 40/40）
G06F40/12	..使用代码处理文本实体
G06F40/137	...分级处理，例如轮廓