Invention Grant
- Patent Title: 一种PDF文档中文字的分段方法、装置及电子设备
-
Application No.: CN201811106976.1Application Date: 2018-09-21
-
Publication No.: CN110941972BPublication Date: 2023-11-28
- Inventor: 邓斌
- Applicant: 广州金山移动科技有限公司 , 珠海金山办公软件有限公司 , 北京金山办公软件股份有限公司
- Applicant Address: 广东省广州市天河区建中路60号科迅大厦六楼
- Assignee: 广州金山移动科技有限公司,珠海金山办公软件有限公司,北京金山办公软件股份有限公司
- Current Assignee: 广州金山移动科技有限公司,珠海金山办公软件有限公司,北京金山办公软件股份有限公司
- Current Assignee Address: 广东省广州市天河区建中路60号科迅大厦六楼
- Agency: 北京柏杉松知识产权代理事务所
- Agent 李欣; 项京
- Main IPC: G06F40/10
- IPC: G06F40/10
Abstract:
本发明实施例提供了一种PDF文档中文字的分段方法、装置及电子设备,方案如下:可以将待分段PDF文档中待分段的连续的三行文字,确定该三行文字中每行文字的位置信息,作为行位置信息,基于三行文字的行位置信息,确定该三行文字中每相邻两行文字之间的位置间隔,作为行间距,当三行文字中每相邻两行文字之间的行间距相等时,将三行文字划分在同一个段落中。通过本发明实施例提供的方案,可以针对整个PDF文档,以该PDF文档每一行为单位,按照每相邻两行文字之间的行间距对PDF文档进行分段处理,得到分段后的段落,提高了PDF文档分段的准确性。
Public/Granted literature
- CN110941972A 一种PDF文档中文字的分段方法、装置及电子设备 Public/Granted day:2020-03-31
Information query