一种结构化数据提取方法和系统
    5.
    发明公开

    公开(公告)号:CN117216015A

    公开(公告)日:2023-12-12

    申请号:CN202311214728.X

    申请日:2023-09-19

    摘要: 本发明涉及一种结构化数据提取方法和系统,包括:获取源文件;对源文件进行识别,确定源文件的类型;若源文件为非扫描版PDF文件,则采用按页处理的方式对非扫描版PDF文件进行数据提取,获得非扫描版PDF文件的结构化数据;若源文件为扫描版PDF文件,则采用光学字符识别技术的方式对扫描版PDF文件进行数据提取,获得扫描版PDF文件的结构化数据;若源文件为图纸版PDF文件,则采用区域定位和解析的方式对图纸版PDF文件进行数据提取,获得图纸版PDF文件的结构化数据。本发明可以根据不同类型的PDF文件采用对应的方式进行数据提取,有效解决了目前单一提取方法的准确度低、耗时耗力、人工成本高等问题,显著提高了数据利用率。

    海量非结构化电子文件的结构化处理方法及系统

    公开(公告)号:CN106815268A

    公开(公告)日:2017-06-09

    申请号:CN201510870916.7

    申请日:2015-12-01

    IPC分类号: G06F17/30

    CPC分类号: G06F17/30011 G06F17/30699

    摘要: 本发明公开了一种海量非结构化电子文件的结构化处理方法及系统。该系统包括元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;以及内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。应用本发明海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件的结构化转换效率及准确率,降低人工成本。本系统还可完整记录海量非结构化数据结构化转变过程中产生的报错信息,利于后期追踪及回滚。

    单点登录方法、设备及系统
    9.
    发明公开

    公开(公告)号:CN102984169A

    公开(公告)日:2013-03-20

    申请号:CN201210530141.5

    申请日:2012-12-11

    IPC分类号: H04L29/06

    摘要: 本发明公开了一种单点登录方法,其包括:获取用户向应用服务器发送的访问请求;若所述访问请求中携带令牌,则判断所述令牌是否与单点登录服务器中保存的会话信息一致;若一致,则向所述应用服务器发送所述令牌一致的响应,以使所述应用服务器接受所述访问请求。本发明单点登录方法使应用服务器不需要对令牌进行验证操作,减轻了应用系统侧的工作负担,提高了应用系统侧的效率。此外,本发明还公开了一种单点登录设备和系统。