发明公开
CN107194390A 一种识别PDF文档中水印的方法
无效 - 撤回
- 专利标题: 一种识别PDF文档中水印的方法
- 专利标题(英): Method for identifying watermarks in PDF document
-
申请号: CN201710231660.4申请日: 2017-04-11
-
公开(公告)号: CN107194390A公开(公告)日: 2017-09-22
- 发明人: 常诚 , 何黎刚 , 陈浩
- 申请人: 常诚 , 何黎刚 , 陈浩
- 申请人地址: 湖南省长沙市湖南大学信息科学与工程学院(软件大楼); ;
- 专利权人: 常诚,何黎刚,陈浩
- 当前专利权人: 常诚,何黎刚,陈浩
- 当前专利权人地址: 湖南省长沙市湖南大学信息科学与工程学院(软件大楼); ;
- 主分类号: G06K9/20
- IPC分类号: G06K9/20 ; G06K9/46
摘要:
本发明涉及一种识别PDF文件中水印的方法。步骤1:提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数;指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次;步骤2:筛选(计数>页数/2)的指纹集合,查找相应指纹位置的元素;步骤3:遍历备选指纹,如果指纹对应的都是文字元素,则进行步骤4处理;对应均为位图元素则进入步骤5;步骤4:提取该指纹对应的文字,如果相同或满足递增、递减规律则判定为文字水印;步骤5:提取指纹对应的位图,如果相同则判定为图片水印。在上述处理框架中,本发明还阐述了位置指纹生成方法,文字内容规律判断方法及相同图片判断方法等实施细节,综合提高PDF文档水印的识别率,为提取、分析内容等后续处理做准备。