发明公开
- 专利标题: 一种PDF公告文档的处理方法及系统
-
申请号: CN202111535580.0申请日: 2021-12-15
-
公开(公告)号: CN114170614A公开(公告)日: 2022-03-11
- 发明人: 张胜博 , 万德洪 , 孙科 , 罗康洋 , 束金龙 , 谭可人 , 王佳妮 , 雷鑫林 , 刘宇 , 耿然 , 铁清木 , 张炜祺 , 张林
- 申请人: 上海金仕达软件科技有限公司
- 申请人地址: 上海市浦东新区亮景路210号
- 专利权人: 上海金仕达软件科技有限公司
- 当前专利权人: 上海金仕达软件科技有限公司
- 当前专利权人地址: 上海市浦东新区亮景路210号
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 张珊珊
- 主分类号: G06V30/416
- IPC分类号: G06V30/416 ; G06V30/413 ; G06F16/178
摘要:
本发明公开了一种公告文档的处理方法及系统,基于获取的PDF公告文档的格式和内容,判断PDF公告文档为标准化PDF文档或非标准化PDF文档,当PDF公告文档为标准化PDF文档时,将PDF公告文档由PDF格式转换为一个临时的docx格式的Word公告文档,对PDF公告文档和Word公告文档采用预设坐标算法进行公告域信息分割,并在分割完成后得到PDF公告文档对应的格式化的公告纯文本。本发明利用Word公告文档中的正文行对象和表格对象,在采用预设坐标算法时有效的区分PDF公告文档中的正文行对象和表格对象,使得PDF公告文档转换之后的正文行对象与表格对象相互区分和隔离,满足自然语言处理技术的需求。