一种PDF文档中文字的分段方法、装置及电子设备
Abstract:
本发明实施例提供了一种PDF文档中文字的分段方法、装置及电子设备,方案如下:可以将待分段PDF文档中待分段的连续的三行文字,确定该三行文字中每行文字的位置信息,作为行位置信息,基于三行文字的行位置信息,确定该三行文字中每相邻两行文字之间的位置间隔,作为行间距,当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。通过本发明实施例提供的方案,可以针对整个PDF文档,以该PDF文档每一行为单位,按照每相邻两行文字之间的行间距对PDF文档进行分段处理,得到分段后的段落,提高了PDF文档分段的准确性。
Public/Granted literature
Patent Agency Ranking
0/0