一种识别文档中数据表格的方法及装置
Abstract:
本发明属于文档应用领域,公开了一种识别文档中数据表格的方法和装置,所述方法包括:提取PDF文档中的文本;根据提取的文本的属性对文本进行划分,得到一划分结果;对划分结果进行判断和处理,识别并生成数据表格;将数据表格保存至独立的中间数据结构中;根据目标文档格式将所述中间数据结构中的数据表格还原。本发明准确的对PDF中的表格数据进行转换,极大的提高了转换后的可编辑性,减少了转换后对文档再次手工处理的工作。
Public/Granted literature
Patent Agency Ranking
0/0