PDF文档的处理方法、装置、设备和介质

    公开(公告)号:CN117173729A

    公开(公告)日:2023-12-05

    申请号:CN202311076194.9

    申请日:2023-08-24

    摘要: 本公开提出一种PDF文档的处理方法、装置、设备和介质,其中,方法包括:获取待识别的可携带文档格式PDF文档,并将PDF文档转换为至少一个目标图片;采用图像识别模型对各目标图片进行图像识别,以得到中间文本;基于用户配置的目标关键词,采用文本提取模型对中间文本进行文本提取,以获取与目标关键词对应的关键信息;将各目标关键词和各目标关键词对应的关键信息进行对应存储。由此,可以自动识别PDF文档的文本内容,自动提取与目标关键词对应的关键信息,可以降低人工参与量,释放人力资源,降低人力成本,提高PDF文档的关键信息的识别效率和录入效率,还可以避免人工录入文件文本时易出错的情况,提升PDF文档的关键信息录入的准确性。

    基于Python的商务文件财务表格格式转换方法及系统

    公开(公告)号:CN118095211A

    公开(公告)日:2024-05-28

    申请号:CN202410169054.4

    申请日:2024-02-06

    IPC分类号: G06F40/151 G06F40/18

    摘要: 本发明涉及数据存储技术领域,具体涉及基于Python的商务文件财务表格格式转换方法及系统,包括:将PDF商务文件财务表格转化为DataFrame格式表格,创建一个包含不同内容分类数组的Python字典变量并将DataFrame格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充;对字典变量内DataFrame格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的Python字典变量;将包含整个商务文件中各个财务表格的Python字典变量转化为JSON格式。本发明减少了格式转化的误差,提高了格式转化的效率。

    表格的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN117912036A

    公开(公告)日:2024-04-19

    申请号:CN202410165580.3

    申请日:2024-02-05

    IPC分类号: G06V30/41 G06F40/18

    摘要: 本申请提出一种表格的处理方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文档;获取所述待处理文档中第一页面的第一表格和页面文本;将所述页面文本和预设的至少一个表名关键词进行匹配;响应于所述页面文本包含所述表名关键词中的至少一个,获取所述第一表格对应的表头文本;基于所述表头文本确定所述第一表格的表格类型;基于所述第一表格的表格类型处理所述第一表格。通过本申请的技术方案,可以提高获取的表格的准确性,为后续基于表格进行的数据分析和决策提供可靠的数据支持。

    文档中表格数据的信息提取方法及系统

    公开(公告)号:CN115796137A

    公开(公告)日:2023-03-14

    申请号:CN202211439495.9

    申请日:2022-11-17

    IPC分类号: G06F40/18 G06F40/174

    摘要: 本申请提出一种文档中表格数据的信息提取方法及系统,该方法包括:将文档中的待处理表格划分为多个单一的单元格;通过预设的单元格记录形式记录每个单一的单元格的信息,信息包括单元格内容和单元格合并区域的信息;根据单元格内容和单元格所处合并区域的信息,确定待处理表格的标题行;根据文档的类型确定目标信息,以目标信息为基准,从标题行开始按行提取待处理表格中每行的信息。该方法可以便捷和准确的将表格中的信息提取出来,提高表格数据提取的准确性。