一种电力行业科研知识抽取方法及系统

    公开(公告)号:CN117933380B

    公开(公告)日:2024-10-29

    申请号:CN202410140232.0

    申请日:2024-01-31

    摘要: 本发明公开了一种电力行业科研知识抽取方法及系统,该方法包括以下步骤:S1收集电力科研文献信息,并对收集到的文献信息进行预处理;S2构建电力科研领域关键词词典,通过机器标注的方式得到命名实体识别标注的语料库,从而得到训练集;S3采用改进的BiLSTM‑CNN‑CRF网络对训练集进行训练,完成电力科研知识的关键词抽取;S4将所述预测输出层得到的电力科研知识关键词与电力科研文献信息一起存入到图数据库Neo4j中。本发明将预处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,采用的字符嵌入向量计算方法为将电力行业中的每个字符向量化,比直接使用相关模型进行特征提取进而得到相关的字符嵌入向量更加齐整,也即减少了很多冗余无效数据信息,从而提高抽取的准确率也相应的提高了抽取速度。

    基于语义标注的知识图谱查询优化方法

    公开(公告)号:CN118820398A

    公开(公告)日:2024-10-22

    申请号:CN202410874893.6

    申请日:2024-07-02

    IPC分类号: G06F16/33 G06F16/36 G06F40/30

    摘要: 本发明公开了基于语义标注的知识图谱查询优化方法,涉及数据处理技术领域,该方法包括:对目标知识图谱在历史查询窗口内的查询信息进行采集,获得历史查询数据集;获得Q个查询数据集合;获得Q个查询项目的Q个语义理解复杂度;生成Q个项目关键词向量集;对目标知识图谱中的Q个查询项目进行语义标注,获得语义标注结果;获得第一查询系数;获取目标查询用户在当前时刻的查询信息,与Q个查询项目进行匹配,并结合第一查询系数,获得目标查询结果。本发明解决了现有技术中进行知识图谱查询时数据量大,查询响应速度慢的技术问题,达到了利用语义标注对知识图谱查询进行优化,提升查询准确度和查询效率的技术效果。

    一种基于知识图谱的电力科研知识智能查询方法及系统

    公开(公告)号:CN118708711A

    公开(公告)日:2024-09-27

    申请号:CN202410810178.6

    申请日:2024-06-21

    摘要: 本发明公开了一种基于知识图谱的电力科研知识智能查询方法及系统,该方法包括以下步骤:收集电力科研文献信息,爬取电力科研领域关键词词典,将收集到的电力科研文献信息与电力科研领域关键词存储在图数据库Neo4j中;收集关于电力文章中的关键词与关键词释义的句子,并人工标注数据;将关键词中的每一个字作为一个实体构建关键词与字的知识图谱,基于该图谱得到融合邻居信息的每个字的邻域矩阵;构建融合知识图谱邻域信息的电力科研知识智能查询模型,该模型经过训练输出得到句子中的电力关键词识别与句子意图解析。本发明改进了常用的字符嵌入模型,融入了字与电力关键词之间的知识图谱基于邻居的聚合信息,可以更好的匹配电力关键词。

    一种基于BGE模型的电力科研知识关联性构建方法及系统

    公开(公告)号:CN117910460B

    公开(公告)日:2024-06-07

    申请号:CN202410306464.9

    申请日:2024-03-18

    摘要: 本发明公开了一种基于BGE模型的电力科研知识关联性构建方法及系统,该方法包括以下步骤:收集电力科研文献信息,并对收集到的文献信息进行预处理,得到电力领域关键词词库;获取电力领域关键词的释义,构建电力领域关键词词典;利用融合词典信息BGE模型对每个电力领域关键词的释义向量化,将所得电力领域关键词词库的释义全部向量化;根据所得的全部电力领域关键词的释义向量化计算电力领域关键词之间的语义相关性和语境相关性。本发明将构建的电力领域关键词释义经过RetroMAE预训练和嵌入层,分别处理后进行向量的拼接,得到多维度的释义向量表示,从两个方向聚合对象语义信息,可得到每个层面的最终表征,保证了语义信息不被削弱,提高了语义表征的能力。

    Transformer与多头注意力机制的电力领域科研成果实体识别方法

    公开(公告)号:CN117973385A

    公开(公告)日:2024-05-03

    申请号:CN202410141223.3

    申请日:2024-02-01

    摘要: 本发明公开了Transformer与多头注意力机制的电力领域科研成果实体识别方法,TE‑BMAC模型通过在信息输入层引入Transformer编码器,使得模型在处理文本信息时具有更强大的学习和表达能力,相较于传统方法,在性能上表现出显著的优势,提升了模型在涉及上下文关系的任务中的实用性和适应性;TE‑BMAC模型中特征提取层的BiLSTM和多头注意力机制的融合,使得模型在处理不同领域和复杂语境下具有更强的泛化能力,相较于单一BiLSTM模型在处理特定任务时的限制,本发明能够更好地适应各种应用场景,提高了模型特征提取的通用性和可靠性;基于TE‑BMAC模型以一种高效、准确的方式实现了电力科研成果的命名实体识别,为电力领域的科研活动和信息处理提供了一种可行、可靠、精准度高的实体识别方法。