基于移动设备的PDF学术论文重排版系统及方法

    公开(公告)号:CN109522539A

    公开(公告)日:2019-03-26

    申请号:CN201811421742.6

    申请日:2018-11-26

    IPC分类号: G06F17/25 G06F17/21

    摘要: 本发明公开了一种基于移动设备的PDF学术论文重排版系统,包括:其一为细粒度地解析原始PDF,得到包括文字、矢量元素等并不具有论文结构信息的元素,再将得到的的元素整合成学术论文各元素,包括正文段落、标题、出版信息、参考文献、图表、图注等文本与媒体元素;其二为根据移动设备不同的设备像素(dp)以及pdf页面宽高得出转换比率,再按照不同的排版法则对学术论文中各类元素进行布局。本发明能够细粒度对PDF中的文字与矢量元素进行解析,从而提高PDF各元素解析的准确率,依据提取到的元素信息对原始PDF学术论文进行重构,进而结合移动设备显示特点动态地按照不同的排版法则调整各元素的坐标位置和大小,从而实现在移动设备上对PDF学术论文进行重排版。

    一种识别PDF文档中水印的方法

    公开(公告)号:CN107194390A

    公开(公告)日:2017-09-22

    申请号:CN201710231660.4

    申请日:2017-04-11

    申请人: 常诚 何黎刚 陈浩

    发明人: 常诚 何黎刚 陈浩

    IPC分类号: G06K9/20 G06K9/46

    摘要: 本发明涉及一种识别PDF文件中水印的方法。步骤1:提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数;指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次;步骤2:筛选(计数>页数/2)的指纹集合,查找相应指纹位置的元素;步骤3:遍历备选指纹,如果指纹对应的都是文字元素,则进行步骤4处理;对应均为位图元素则进入步骤5;步骤4:提取该指纹对应的文字,如果相同或满足递增、递减规律则判定为文字水印;步骤5:提取指纹对应的位图,如果相同则判定为图片水印。在上述处理框架中,本发明还阐述了位置指纹生成方法,文字内容规律判断方法及相同图片判断方法等实施细节,综合提高PDF文档水印的识别率,为提取、分析内容等后续处理做准备。

    一种识别PDF文档中图表的方法

    公开(公告)号:CN107133566A

    公开(公告)日:2017-09-05

    申请号:CN201710209497.1

    申请日:2017-03-31

    申请人: 常诚

    发明人: 常诚 何黎刚 陈浩

    IPC分类号: G06K9/00

    摘要: 本发明涉及一种识别PDF文件中图表的方法。该方法包括,步骤1:读取并记录PDF格式标准中所有文字和绘图对象的区域信息,即位置坐标及宽高构成的矩形;步骤2:计算文字对象的字符密度,统计平均字符密度d和方差 v,最小字符宽w和高h;步骤3:过滤不合规绘图对象,如果矩形面积为零则区域向外扩展探测;步骤4:遍历绘图对象,如果与其他对象矩形相交则合并区域为新绘图对象并记录字符数,直到所有范围不再变化;步骤5:计算每个绘图对象的字符密度D,如果D值在[d ‑ v,d + v]区间外,则判定该对象为图表,对应矩形范围即图表所在区域。本发明能够识别文档中的图表及其位置,为提取、分析等后续处理做准备。