-
公开(公告)号:CN117194614B
公开(公告)日:2024-01-30
申请号:CN202311447367.3
申请日:2023-11-02
发明人: 高晓欣 , 许元斌 , 刘永清 , 刘玉玺 , 王思宁 , 许海清 , 赵海翔 , 李刚 , 欧阳红 , 杨强 , 王宇 , 王明 , 焦艳斌 , 韩泽华 , 陈刚 , 卜娜 , 韩嘉佳 , 孙歆 , 颜拥 , 姚影
IPC分类号: G06F16/33 , G06F40/211 , G06F40/289 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/08 , G06F16/35 , G06F18/22 , G06F18/24
摘要: 本申请公开一种文本差异识别方法、装置和计算机可读介质,分别获取待分析文本的关键信息和标准文本的关键信息,将待分析文本的关键信息对应的第一语句和标准文本的关键信息对应的第二语句进行拼接得到嵌入向量,将嵌入向量输入预先训练好的BERT模型中,得到上下文编码向量,利用上下文编码向量得到第一语句和第二语句的匹配信息量,从而通过嵌入向量和匹配信息向量,得到第一语句和第二语句的语义相似度,通过预先训练的BERT模型可以得到准确率高的语义相似度,之后获取第一语句和第二语句的结构相似度,最后通过语义相似度和结构相似度,计算求得待分析文本和标准文本间的文本相(56)对比文件CN 112101043 A,2020.12.18CN 112182166 A,2021.01.05CN 114067308 A,2022.02.18CN 116701574 A,2023.09.05WO 2020140635 A1,2020.07.09吴炎;王儒敬.基于BERT的语义匹配算法在问答系统中的应用.仪表技术.2020,(06),全文.
-
公开(公告)号:CN118839756A
公开(公告)日:2024-10-25
申请号:CN202410522326.4
申请日:2024-04-28
申请人: 北京中电普华信息技术有限公司 , 国网信息通信产业集团有限公司
IPC分类号: G06N5/022 , G06N5/04 , G06F16/36 , G06F16/332
摘要: 本申请提供一种基于知识图谱的问答系统构建方法及相关设备。所述方法包括:对获取的标准文件的内容进行提取并进行预处理,得到标准信息;对标准信息进行分析,得到实体信息和实体关系信息;基于所述实体信息和所述实体关系信息构建知识图谱;基于预设的专家示例样本和所述知识图谱对预设的智能体进行训练,对知识图谱中潜在关系进行推理和补全,得到更新后的知识图谱;基于所述更新后的知识图谱构建问答系统。本申请实施例通过梳理多份电站建设相关标准中的海量知识及以及充分挖掘潜在信息,将标准数字化,依据现有知识建立电站建设有关的知识图谱,并用于建设电站建设有关的问答系统,以帮助现场建设人员快速高效地查询施工项目有关标准内容。
-
公开(公告)号:CN118504561A
公开(公告)日:2024-08-16
申请号:CN202410522325.X
申请日:2024-04-28
申请人: 北京中电普华信息技术有限公司 , 国网信息通信产业集团有限公司
IPC分类号: G06F40/284 , G06F40/289 , G06F40/295 , G06F40/194 , G06F16/35 , G06F40/211 , G06N3/0464 , G06F40/16 , G06F40/30
摘要: 本申请一个或多个实施例提供一种电力标准条款差异识别方法及相关设备。所述方法包括:提取电力标准条款的特征数据;所述特征数据包括语义特征、上下文特征和实体关系特征;根据所述特征数据,通过表示向量生成模型得到所述电力标准条款的表示向量;根据所述表示向量,利用分类模型筛选相似条款对;对所述相似条款对的相似度进行二次筛选,得到目标条款对。本申请提供的技术方案,一方面在进行相似电力标准条款筛选之前对电力标准条款进行特征提取和表示向量生成,以此提高相似条款筛选的效率和准确度;另一方通过不同的分类模型进行两层筛选,以提高筛选结果的准确度。由此,本申请的技术方案具有提高电力标准条款差异识别效率和准确度的优点。
-
公开(公告)号:CN118504521A
公开(公告)日:2024-08-16
申请号:CN202410540131.2
申请日:2024-04-30
申请人: 北京中电普华信息技术有限公司 , 国网信息通信产业集团有限公司
IPC分类号: G06F40/103 , G06F40/295 , G06F16/35 , G06F16/36 , G06F40/30 , G06N3/0455 , G06N3/082
摘要: 本公开提供一种目标文本的处理方法及相关设备。该方法包括:获取待处理的目标文本;基于训练好的BERT模型对所述目标文本进行编码,得到第一编码向量;基于注意力机制对所述语义编码向量进行加权处理更新所述第一编码向量的权重,得到第二编码向量;基于随机条件常模型和所述第二编码向量确定所述目标文本中与所述第二编码向量对应的文本对象的预测标签;基于预设标识符从所述第一编码向量提取得到句子向量,以及从第一编码向量中提取实体向量;基于所述句子向量和实体向量拼接得到实体对;基于所述实体对进行实体关系分类,得到关系分类结果;按照预设格式将具有所述标签的文本对象和所述关系分类结果得到目标处理结果。
-
公开(公告)号:CN118470731A
公开(公告)日:2024-08-09
申请号:CN202410522645.5
申请日:2024-04-28
申请人: 北京中电普华信息技术有限公司 , 国网信息通信产业集团有限公司
IPC分类号: G06V30/412 , G06V30/413 , G06V30/414 , G06V30/418
摘要: 本申请实施例提供一种复杂表格信息智能提取方法及装置,包括:获取表格图像;从所述表格图像中提取表格框架,得到表格框架图像和各单元格的位置信息;根据所述位置信息,对所述表格图像进行裁剪,得到对应各单元格的单元格图像;对于每个单元格图像,利用预设的内容识别模型,从所述单元格图像中提取单元格内容;利用预设的内容分类模型,确定所述单元格内容的类型;基于各单元格的位置信息、单元格内容、类型,重塑表格信息,能够对结构复杂的表格进行处理,得到准确的表格信息。
-
公开(公告)号:CN117407538A
公开(公告)日:2024-01-16
申请号:CN202311407010.2
申请日:2023-10-26
发明人: 高晓欣 , 许海清 , 赵海翔 , 许元斌 , 刘永清 , 刘玉玺 , 王思宁 , 李刚 , 欧阳红 , 杨强 , 王宇 , 王明 , 焦艳斌 , 韩泽华 , 陈刚 , 孙明 , 韩嘉佳 , 孙歆 , 颜拥 , 姚影
IPC分类号: G06F16/36 , G06F16/38 , G06F16/383
摘要: 本发明提供了一种标准关系的建立方法及装置,应用于信息处理技术领域,获取待处理的标准文本和预先创建的标准数据库,标准文本包括引用文件清单,标准数据库包括标准编号,对引用文件清单进行处理,得到引用标准信息,引用标准信息包括标准编号,判断引用标准信息是否包括标准发布年号,若包括,则基于引用标准信息的标准编号和标准数据库的标准编号,确定引用标准信息的具体信息,并建立标准关系,若不包括,则基于引用标准信息的标准编号和标准数据库的标准编号,确定虚拟标准信息,利用虚拟标准信息,确定引用标准信息的具体信息,并建立标准关系,通过建立和更新虚拟标准信息,不需要人工手动进行查找分析,提高了效率。
-
公开(公告)号:CN117194614A
公开(公告)日:2023-12-08
申请号:CN202311447367.3
申请日:2023-11-02
发明人: 高晓欣 , 许元斌 , 刘永清 , 刘玉玺 , 王思宁 , 许海清 , 赵海翔 , 李刚 , 欧阳红 , 杨强 , 王宇 , 王明 , 焦艳斌 , 韩泽华 , 陈刚 , 卜娜 , 韩嘉佳 , 孙歆 , 颜拥 , 姚影
IPC分类号: G06F16/33 , G06F40/211 , G06F40/289 , G06F40/30 , G06N3/045 , G06N3/0464 , G06N3/08 , G06F16/35 , G06F18/22 , G06F18/24
摘要: 本申请公开一种文本差异识别方法、装置和计算机可读介质,分别获取待分析文本的关键信息和标准文本的关键信息,将待分析文本的关键信息对应的第一语句和标准文本的关键信息对应的第二语句进行拼接得到嵌入向量,将嵌入向量输入预先训练好的BERT模型中,得到上下文编码向量,利用上下文编码向量得到第一语句和第二语句的匹配信息量,从而通过嵌入向量和匹配信息向量,得到第一语句和第二语句的语义相似度,通过预先训练的BERT模型可以得到准确率高的语义相似度,之后获取第一语句和第二语句的结构相似度,最后通过语义相似度和结构相似度,计算求得待分析文本和标准文本间的文本相似度。
-
-
-
-
-
-