基于Python的商务文件财务表格格式转换方法及系统

    公开(公告)号:CN118095211A

    公开(公告)日:2024-05-28

    申请号:CN202410169054.4

    申请日:2024-02-06

    IPC分类号: G06F40/151 G06F40/18

    摘要: 本发明涉及数据存储技术领域,具体涉及基于Python的商务文件财务表格格式转换方法及系统,包括:将PDF商务文件财务表格转化为DataFrame格式表格,创建一个包含不同内容分类数组的Python字典变量并将DataFrame格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充;对字典变量内DataFrame格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的Python字典变量;将包含整个商务文件中各个财务表格的Python字典变量转化为JSON格式。本发明减少了格式转化的误差,提高了格式转化的效率。

    表格的处理方法、装置、电子设备及存储介质

    公开(公告)号:CN117912036A

    公开(公告)日:2024-04-19

    申请号:CN202410165580.3

    申请日:2024-02-05

    IPC分类号: G06V30/41 G06F40/18

    摘要: 本申请提出一种表格的处理方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文档;获取所述待处理文档中第一页面的第一表格和页面文本;将所述页面文本和预设的至少一个表名关键词进行匹配;响应于所述页面文本包含所述表名关键词中的至少一个,获取所述第一表格对应的表头文本;基于所述表头文本确定所述第一表格的表格类型;基于所述第一表格的表格类型处理所述第一表格。通过本申请的技术方案,可以提高获取的表格的准确性,为后续基于表格进行的数据分析和决策提供可靠的数据支持。

    文档信息的提取方法和装置
    5.
    发明公开

    公开(公告)号:CN115935928A

    公开(公告)日:2023-04-07

    申请号:CN202211448393.3

    申请日:2022-11-18

    摘要: 本申请提出了一种文档信息的提取方法,涉及智能招标技术领域,其中,该方法包括:获取文档中页面的文本信息和文本信息对应的位置信息;获取页面中的表格数据集,并从表格数据集中提取行信息和列信息,以及行信息和列信息对应的位置信息;将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配,得到匹配结果和表格中单元格的横向合并信息和纵向合并信息;根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体,其中,表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。本申请通过提取文档页面的表格数据,解析表格横向或纵向的合并问题,实现对文档的表格数据信息的提取。

    用于非结构化文档的信息提取方法及系统

    公开(公告)号:CN115687703A

    公开(公告)日:2023-02-03

    申请号:CN202211459209.5

    申请日:2022-11-17

    IPC分类号: G06F16/81 G06F16/335

    摘要: 本申请提出一种用于非结构化文档的信息提取方法及系统,该方法包括:获取待处理的非结构化目标文档,并将目标文档的版本转换为预设版本;将版本转换后的目标文档转换为可扩展标记语言XML文档;建立数据预处理列表,并按照XML文档中的标签顺序依次对每个标签进行分析,判断每个标签对应的数据的类型;根据数据的类型以对应的数据提取方式对每个标签对应的数据进行提取,并按序将提取出的数据保存在数据预处理列表中。该方法可以便捷和全面的将非结构化文档中的信息提取出来,得到标注化的数据,提高了非结构化文档信息提取的效率和准确性。

    一种基于pdfplumber的PDF商务文件文本关键词提取方法及设备

    公开(公告)号:CN117332755A

    公开(公告)日:2024-01-02

    申请号:CN202311205288.1

    申请日:2023-09-18

    摘要: 本发明提出一种基于pdfplumber的PDF商务文件文本关键词提取方法及设备,该方法通过逐页扫描PDF商务文件,用pdfplumber做提取操作;对直接提取出的结果做处理,使得文字串规范化;根据项目基本信息关键词提取功能或表格关键词提取功能,做不同处理。前者的关键步骤是创建正则表达式,再用正则表达式与本页提取结果做模式匹配;后者的关键步骤是根据提取结果与欲提取表格的关键词做匹配,从而判断是否需要进行提取表格动作,或提取表格后检查表格合法性。通过本发明,能够克服现有的提取商务文件中项目基本信息关键词以及表格关键词方法的不足,需要结合多页pdf的提取结果整合出完整信息,并且对pdfplumber的提取结果进行优化,提高准确率及提取效率。