-
公开(公告)号:CN118095211A
公开(公告)日:2024-05-28
申请号:CN202410169054.4
申请日:2024-02-06
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F40/151 , G06F40/18
摘要: 本发明涉及数据存储技术领域,具体涉及基于Python的商务文件财务表格格式转换方法及系统,包括:将PDF商务文件财务表格转化为DataFrame格式表格,创建一个包含不同内容分类数组的Python字典变量并将DataFrame格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充;对字典变量内DataFrame格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的Python字典变量;将包含整个商务文件中各个财务表格的Python字典变量转化为JSON格式。本发明减少了格式转化的误差,提高了格式转化的效率。
-
公开(公告)号:CN117912036A
公开(公告)日:2024-04-19
申请号:CN202410165580.3
申请日:2024-02-05
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能招标有限公司
摘要: 本申请提出一种表格的处理方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文档;获取所述待处理文档中第一页面的第一表格和页面文本;将所述页面文本和预设的至少一个表名关键词进行匹配;响应于所述页面文本包含所述表名关键词中的至少一个,获取所述第一表格对应的表头文本;基于所述表头文本确定所述第一表格的表格类型;基于所述第一表格的表格类型处理所述第一表格。通过本申请的技术方案,可以提高获取的表格的准确性,为后续基于表格进行的数据分析和决策提供可靠的数据支持。
-
公开(公告)号:CN118035834A
公开(公告)日:2024-05-14
申请号:CN202410177668.7
申请日:2024-02-08
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F18/241 , G06F18/2415 , G06F18/213 , G06F40/258 , G06N3/08
摘要: 本申请提出一种分项报价标题分类方法、装置、电子设备及存储介质,涉及数据处理技术领域,其中,方法包括:获取分项报价文档的文档名称和分项报价文档中分项报价表的报价项目;根据文档名称和报价项目构建的异构图的特征矩阵,训练分类模型;将报价项目输入训练完成的分类模型中,以获取报价项目的分类结果。解决了分项报价标题分类智能化程度较低的问题,通过提取分项报价文档中的各报价项目的关联关系,对分项报价标题进行智能化分类,实现分项报价标题的有效分类,并提升分类效率。
-
公开(公告)号:CN116595380A
公开(公告)日:2023-08-15
申请号:CN202310699463.0
申请日:2023-06-13
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F18/214 , G06F18/24 , G06F40/18 , G06F40/258 , G06N3/044
摘要: 本申请公开了一种表格标题分类模型的训练方法、表格标题的分类方法、装置、设备及存储介质。其中,该表格标题分类模型的训练方法包括:获取表格标题样本和表格标题样本对应的样本分类标签;基于表格标题样本和样本分类标签生成局部输入矩阵和全局输入矩阵;将局部输入矩阵输入局部分类单元,获取第一特征向量;将全局输入矩阵输入全局分类单元,获取第二特征向量;将第一特征向量和第二特征项向量输入MLP进行特征映射,获取预测分类结果,并根据预测分类结果和样本分类标签对表格标题分类模型进行训练。通过本申请的技术方案,可以通过训练完成的表格标题分类模型,提高对表格标题进行分类的效率和准确率。
-
公开(公告)号:CN115935928A
公开(公告)日:2023-04-07
申请号:CN202211448393.3
申请日:2022-11-18
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F40/18 , G06F40/174 , G06F16/31 , G06F16/335
摘要: 本申请提出了一种文档信息的提取方法,涉及智能招标技术领域,其中,该方法包括:获取文档中页面的文本信息和文本信息对应的位置信息;获取页面中的表格数据集,并从表格数据集中提取行信息和列信息,以及行信息和列信息对应的位置信息;将文本信息对应的位置信息与行信息和列信息对应的位置信息进行匹配,得到匹配结果和表格中单元格的横向合并信息和纵向合并信息;根据匹配结果将文本信息保存至基于行信息和列信息建立的表格信息数据结构体,其中,表格信息数据结构体还保存有表格中单元格的横向合并信息和纵向合并信息。本申请通过提取文档页面的表格数据,解析表格横向或纵向的合并问题,实现对文档的表格数据信息的提取。
-
公开(公告)号:CN115687703A
公开(公告)日:2023-02-03
申请号:CN202211459209.5
申请日:2022-11-17
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F16/81 , G06F16/335
摘要: 本申请提出一种用于非结构化文档的信息提取方法及系统,该方法包括:获取待处理的非结构化目标文档,并将目标文档的版本转换为预设版本;将版本转换后的目标文档转换为可扩展标记语言XML文档;建立数据预处理列表,并按照XML文档中的标签顺序依次对每个标签进行分析,判断每个标签对应的数据的类型;根据数据的类型以对应的数据提取方式对每个标签对应的数据进行提取,并按序将提取出的数据保存在数据预处理列表中。该方法可以便捷和全面的将非结构化文档中的信息提取出来,得到标注化的数据,提高了非结构化文档信息提取的效率和准确性。
-
公开(公告)号:CN118296346A
公开(公告)日:2024-07-05
申请号:CN202410169087.9
申请日:2024-02-06
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F18/213 , G06F18/241 , G06F18/25 , G06N3/045 , G06N3/0442 , G06N3/084 , G06F40/49
摘要: 本发明公开了一种基于HMM和BI‑LSTM模型的投标人精准提取方法及系统。属于数据采集领域,一种基于HMM和BI‑LSTM模型的投标人精准提取方法,包括以下步骤:对原始文档的语料数据进行语料初步提取,构建语料数据集;根据投标人的类型对语料数据集进行数据角色标注,得到角色标注数据集;采用HMM和BI‑LSTM模型对角色标注数据集进行自动标注后判定投标人并输出投标人。本发明将投标人切分成不同的组成进行划分类别,有效的提高分类效果,提出了采用BI‑LSTM和HMM多模型融合算法模型,充分的利用数学模型在具体在投标人识别任务中实际运用。结合传统数学模型和深度学习技术,训练融合模型,提高泛化性。
-
公开(公告)号:CN117332755A
公开(公告)日:2024-01-02
申请号:CN202311205288.1
申请日:2023-09-18
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F40/12 , G06F40/166 , G06F18/22
摘要: 本发明提出一种基于pdfplumber的PDF商务文件文本关键词提取方法及设备,该方法通过逐页扫描PDF商务文件,用pdfplumber做提取操作;对直接提取出的结果做处理,使得文字串规范化;根据项目基本信息关键词提取功能或表格关键词提取功能,做不同处理。前者的关键步骤是创建正则表达式,再用正则表达式与本页提取结果做模式匹配;后者的关键步骤是根据提取结果与欲提取表格的关键词做匹配,从而判断是否需要进行提取表格动作,或提取表格后检查表格合法性。通过本发明,能够克服现有的提取商务文件中项目基本信息关键词以及表格关键词方法的不足,需要结合多页pdf的提取结果整合出完整信息,并且对pdfplumber的提取结果进行优化,提高准确率及提取效率。
-
公开(公告)号:CN117115840A
公开(公告)日:2023-11-24
申请号:CN202311108181.5
申请日:2023-08-30
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06V30/412 , G06V30/414 , G06V30/413 , G06V30/18 , G06V10/82 , G06F40/174 , G06N3/0442 , G06N3/048 , G06N3/08
摘要: 本申请提供了一种信息提取方法、装置、电子设备和介质,方法包括:获取待处理的便携式文档格式PDF文件,将待处理的PDF文件的每一页转换为图像文件;对图像文件逐页进行表格识别,判断当前进行表格识别的目标图像文件中是否存在表格;响应于目标图像文件中存在表格,获取目标图像文件中表格的属性特征,根据表格的属性特征,创建待编辑表格;对目标图像文件进行信息提取,获取目标图像文件的文本信息;根据文本信息,对待编辑表格进行填充,得到目标表格,本申请通过深度学习技术对PDF文件中的表格信息进行提取,提高了获取PDF文件中的表格信息的效率,并降低了获取PDF文件中的表格信息的成本,同时,确保了获取PDF文件中的表格信息的准确性和可靠性。
-
公开(公告)号:CN117994801A
公开(公告)日:2024-05-07
申请号:CN202410175125.1
申请日:2024-02-07
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能招标有限公司
IPC分类号: G06V30/412 , G06V30/19 , G06V30/146
摘要: 本申请提出一种表格信息的获取方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文档;去除所述待处理文档中的电子印章;获取去除所述电子印章后的所述待处理文档中待处理页面对应的待处理图像;获取所述待处理图像中包含的表格的表格线交点坐标;基于所述表格线交点坐标对所述待处理图像进行光学字符识别OCR识别,获取所述表格的表格信息。通过本申请的技术方案,能够消除文档中的印章,从而更为准确的获取文档中表格信息。
-
-
-
-
-
-
-
-
-