-
公开(公告)号:CN117994801A
公开(公告)日:2024-05-07
申请号:CN202410175125.1
申请日:2024-02-07
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能招标有限公司
IPC分类号: G06V30/412 , G06V30/19 , G06V30/146
摘要: 本申请提出一种表格信息的获取方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文档;去除所述待处理文档中的电子印章;获取去除所述电子印章后的所述待处理文档中待处理页面对应的待处理图像;获取所述待处理图像中包含的表格的表格线交点坐标;基于所述表格线交点坐标对所述待处理图像进行光学字符识别OCR识别,获取所述表格的表格信息。通过本申请的技术方案,能够消除文档中的印章,从而更为准确的获取文档中表格信息。
-
公开(公告)号:CN117173729A
公开(公告)日:2023-12-05
申请号:CN202311076194.9
申请日:2023-08-24
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06V30/413 , G06V30/18 , G06V30/19 , G06N3/0442 , G06V10/82
摘要: 本公开提出一种PDF文档的处理方法、装置、设备和介质,其中,方法包括:获取待识别的可携带文档格式PDF文档,并将PDF文档转换为至少一个目标图片;采用图像识别模型对各目标图片进行图像识别,以得到中间文本;基于用户配置的目标关键词,采用文本提取模型对中间文本进行文本提取,以获取与目标关键词对应的关键信息;将各目标关键词和各目标关键词对应的关键信息进行对应存储。由此,可以自动识别PDF文档的文本内容,自动提取与目标关键词对应的关键信息,可以降低人工参与量,释放人力资源,降低人力成本,提高PDF文档的关键信息的识别效率和录入效率,还可以避免人工录入文件文本时易出错的情况,提升PDF文档的关键信息录入的准确性。
-
公开(公告)号:CN116543396A
公开(公告)日:2023-08-04
申请号:CN202310504576.0
申请日:2023-05-06
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06V30/19 , G06V30/168 , G06V30/413 , G06F18/22 , G06V10/82 , G06N3/045 , G06N3/0464 , G06N3/088
摘要: 本申请公开了一种文档处理方法、装置、设备及存储介质。其中,该方法包括:获取文档中的文档页面;其中,文档页面包括图像;基于第一聚类中心点向量和第二聚类中心点向量对图像进行筛选,获取目标图像;基于预先训练的图像识别模型及形态学运算对目标图像进行处理,确定目标图像是否包括表格;响应于确定目标图像包括表格,对表格图像进行文字识别处理获取表格图像中的表格文本;将表格文本输入预先训练的文本处理大模型,获取表格文本与第一预设特征词之间的第一特征词匹配度值;响应于第一特征词匹配度值大于第一阈值,确定文档页面为目标文档页面。通过本申请的技术方案,可以实现对文档中包含目标信息的文档页面的快速定位。
-
公开(公告)号:CN117332310A
公开(公告)日:2024-01-02
申请号:CN202311205135.7
申请日:2023-09-18
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F18/241 , G06F16/35 , G06Q30/08
摘要: 本发明提出一种价格文档中分项报价表的分类方法、装置、设备和介质,所述方法包括:获取价格文档的文档名称和价格文档中分项报价表的表格标题;将文档名称和表格标题输入至经过训练的分类模型中,以得到价格文档中分项报价表的类别。由此,该方法能够快速且准确地实现对价格文档中分项报价表的分类,这样可以简化评标人员阅读材料的难度,提高工作效率。
-
公开(公告)号:CN116049722A
公开(公告)日:2023-05-02
申请号:CN202310119225.8
申请日:2023-01-31
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能招标有限公司
IPC分类号: G06F18/24 , G06F18/214 , G06F40/258
摘要: 本公开涉及一种用于投标文档中表格标题分类的处理方法及装置,通过提取表格标题数据;将表格标题数据输入至分类模型中,得到表格标题数据的词向量;根据词向量查询映射关系表,得到表格标题数据的类别,其中,映射关系表中包括:词向量与表格标题类别之间的映射关系。由此,针对表格中不统一的分项基于表格标题进行分类,实现了投标文档基于标题的整合,便于在不同投标人之间比较价格。
-
公开(公告)号:CN118095211A
公开(公告)日:2024-05-28
申请号:CN202410169054.4
申请日:2024-02-06
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F40/151 , G06F40/18
摘要: 本发明涉及数据存储技术领域,具体涉及基于Python的商务文件财务表格格式转换方法及系统,包括:将PDF商务文件财务表格转化为DataFrame格式表格,创建一个包含不同内容分类数组的Python字典变量并将DataFrame格式表格根据内容种类传入字典类型变量的各个数组对字典变量进行填充;对字典变量内DataFrame格式表格进行数据清洗去噪、单位转换、模式匹配并标准化,去除冗余数据后获取包含整个商务文件中各个财务表格的Python字典变量;将包含整个商务文件中各个财务表格的Python字典变量转化为JSON格式。本发明减少了格式转化的误差,提高了格式转化的效率。
-
公开(公告)号:CN117912036A
公开(公告)日:2024-04-19
申请号:CN202410165580.3
申请日:2024-02-05
申请人: 中国华能集团清洁能源技术研究院有限公司 , 华能招标有限公司
摘要: 本申请提出一种表格的处理方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文档;获取所述待处理文档中第一页面的第一表格和页面文本;将所述页面文本和预设的至少一个表名关键词进行匹配;响应于所述页面文本包含所述表名关键词中的至少一个,获取所述第一表格对应的表头文本;基于所述表头文本确定所述第一表格的表格类型;基于所述第一表格的表格类型处理所述第一表格。通过本申请的技术方案,可以提高获取的表格的准确性,为后续基于表格进行的数据分析和决策提供可靠的数据支持。
-
公开(公告)号:CN115796137A
公开(公告)日:2023-03-14
申请号:CN202211439495.9
申请日:2022-11-17
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F40/18 , G06F40/174
摘要: 本申请提出一种文档中表格数据的信息提取方法及系统,该方法包括:将文档中的待处理表格划分为多个单一的单元格;通过预设的单元格记录形式记录每个单一的单元格的信息,信息包括单元格内容和单元格合并区域的信息;根据单元格内容和单元格所处合并区域的信息,确定待处理表格的标题行;根据文档的类型确定目标信息,以目标信息为基准,从标题行开始按行提取待处理表格中每行的信息。该方法可以便捷和准确的将表格中的信息提取出来,提高表格数据提取的准确性。
-
公开(公告)号:CN118035834A
公开(公告)日:2024-05-14
申请号:CN202410177668.7
申请日:2024-02-08
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F18/241 , G06F18/2415 , G06F18/213 , G06F40/258 , G06N3/08
摘要: 本申请提出一种分项报价标题分类方法、装置、电子设备及存储介质,涉及数据处理技术领域,其中,方法包括:获取分项报价文档的文档名称和分项报价文档中分项报价表的报价项目;根据文档名称和报价项目构建的异构图的特征矩阵,训练分类模型;将报价项目输入训练完成的分类模型中,以获取报价项目的分类结果。解决了分项报价标题分类智能化程度较低的问题,通过提取分项报价文档中的各报价项目的关联关系,对分项报价标题进行智能化分类,实现分项报价标题的有效分类,并提升分类效率。
-
公开(公告)号:CN116595380A
公开(公告)日:2023-08-15
申请号:CN202310699463.0
申请日:2023-06-13
申请人: 华能招标有限公司 , 中国华能集团清洁能源技术研究院有限公司
IPC分类号: G06F18/214 , G06F18/24 , G06F40/18 , G06F40/258 , G06N3/044
摘要: 本申请公开了一种表格标题分类模型的训练方法、表格标题的分类方法、装置、设备及存储介质。其中,该表格标题分类模型的训练方法包括:获取表格标题样本和表格标题样本对应的样本分类标签;基于表格标题样本和样本分类标签生成局部输入矩阵和全局输入矩阵;将局部输入矩阵输入局部分类单元,获取第一特征向量;将全局输入矩阵输入全局分类单元,获取第二特征向量;将第一特征向量和第二特征项向量输入MLP进行特征映射,获取预测分类结果,并根据预测分类结果和样本分类标签对表格标题分类模型进行训练。通过本申请的技术方案,可以通过训练完成的表格标题分类模型,提高对表格标题进行分类的效率和准确率。
-
-
-
-
-
-
-
-
-