一种基于大型语言模型的电力数据信息抽取方法和装置

    公开(公告)号:CN117828099A

    公开(公告)日:2024-04-05

    申请号:CN202311868562.3

    申请日:2023-12-29

    摘要: 本申请涉及一种基于大型语言模型的电力数据信息抽取方法和装置,包括根据目标句子、预设的电力信息抽取提示模板和选定的语言模型,得到信息抽取结果,通过结果验证提示模板和语言模型得到信息抽取结果中的待验证实体是否是一个实体的验证结果,将待验证实体则加入候选集集合并更新至电力知识库,并以Json格式输出目标句子的信息抽取结果。本申请解决了传统信息抽取对数据的依赖、上下文信息利用不充分等问题;提高大型语言模型的抽取能力,同时可以将未存在知识库的实体保存到知识库中,也解决了传统信息抽取需要大量标注数据的问题,同时提高信息抽取的泛化性能和实用性。本申请还涉及一种计算机设备和存储介质。

    一种基于语义与结构采样策略的实体对齐方法和装置

    公开(公告)号:CN117556016A

    公开(公告)日:2024-02-13

    申请号:CN202311596284.0

    申请日:2023-11-27

    摘要: 本申请涉及一种基于语义与结构采样策略的实体对齐方法,包括将选择的未标注实体的上一次迭代得到的边界不确定性数值和未标记实体链接的其他实体的上一次迭代的边界不确定性数值迭代计算,得到未标记实体的边界不确定性的数值,根据未标记实体的边界不确定性的数值,选择标注实体标注并更新标记数据集,利用更新后标记数据集实体对齐模型训练,重复上述步骤,直到实体对齐模型满足预设训练结果。本申请优先标注对知识图谱融合更有价值的数据,更新语义表征模型和实体对齐模型,提升采样策略的效果,不断迭代上述过程,在有限的预算下,可以实现更好的实体对齐效果。本申请还涉及一种基于语义与结构采样策略的实体对齐装置、设备和存储介质。