基于对比学习和异构图注意力网络的作者名称消歧方法

    公开(公告)号:CN115481247A

    公开(公告)日:2022-12-16

    申请号:CN202211151607.0

    申请日:2022-09-21

    Applicant: 燕山大学

    Abstract: 本发明公开了基于对比学习和异构图注意力网络的作者名称消歧方法,属于知识图谱构建的实体消歧技术领域,包括使用MongoDB存取论文名称、作者、机构等信息,使用python的字符处理库对数据进行清洗,去除噪声获得更加规范的文本,清洗成适用于后续步骤的数据;使用对比学习对论文进行表征学习,获得论文的统一编码的嵌入;以纯度优先为原则对论文进行聚类,缓解论文过合并问题,得到论文簇;对上一步得到的论文簇使用异构图注意力网络进行对齐;提出过拆分检测和过拆分对齐算法,保证论文消歧质量。本发明更好的实现了同名作者消歧的消歧问题,在一定程度上解决了论文过合并和论文过拆分的问题。

    一种基于层次Trans-CNN的多标签文本分类算法

    公开(公告)号:CN113569049A

    公开(公告)日:2021-10-29

    申请号:CN202110915378.4

    申请日:2021-08-10

    Applicant: 燕山大学

    Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于层次Trans‑CNN的多标签文本分类算法,包括如下步骤:S1、数据预处理;S2、对单词进行特征提取;S3、对句子进行特征提取;S4、将词特征和句子特征融合;S5、将融合后的特征通过卷积层,提取特征;S6、将得到的卷积特征通过全连接网络,对文本进行分类;本发明解决无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失的问题。

    一种基于层次Trans-CNN的多标签文本分类方法

    公开(公告)号:CN113569049B

    公开(公告)日:2024-03-29

    申请号:CN202110915378.4

    申请日:2021-08-10

    Applicant: 燕山大学

    Abstract: 本发明涉及自然语言处理技术领域,具体涉及一种基于层次Trans‑CNN的多标签文本分类算法,包括如下步骤:S1、数据预处理;S2、对单词进行特征提取;S3、对句子进行特征提取;S4、将词特征和句子特征融合;S5、将融合后的特征通过卷积层,提取特征;S6、将得到的卷积特征通过全连接网络,对文本进行分类;本发明解决无法充分捕捉文本语义信息,无法获取到句子与句子之间、段落与段落之间的详细信息,造成语义信息部分缺失的问题。

    一种基于解耦表征和异构图软硬注意力网络的消歧方法

    公开(公告)号:CN115455971A

    公开(公告)日:2022-12-09

    申请号:CN202211128279.2

    申请日:2022-09-16

    Applicant: 燕山大学

    Abstract: 本发明涉及一种基于解耦表征和异构图软硬注意力网络的消歧方法,属于学术数据库构建的实体消歧技术领域,包括以下步骤:S1、数据清洗及预处理;S2、论文实体表征学习,使用语言预训练模型OAG_BERT获得论文的初步表征;S3、解耦表征,使用变分自编码模型加正则化项的方式对论文表征进行特征解耦;S4、论文初始化聚类;S5、异构图实体对齐,构建论文和作者信息异构图,采用软、硬注意力网络对异构图进行实体对齐;S6、获得论文消歧结果。本发明解决了传统消岐方法在实际应用过程中产生的错误分配问题,提高了实体表征能力,提高了消岐算法的性能。

    一种基于建筑和环境的神经网络SGE电力预测方法

    公开(公告)号:CN115345223A

    公开(公告)日:2022-11-15

    申请号:CN202210906539.8

    申请日:2022-07-29

    Applicant: 燕山大学

    Abstract: 本发明公开了一种基于建筑和环境的神经网络SGE电力预测方法,属于深度学习和电力预测技术领域,包括:现实数据集构建,对建筑物信息、环境信息、电力信息进行数据预处理;特征工程,对所述现实数据集的特征进行时间戳处理、特征选择和特征缩放,得到特征时序矩阵;将特征时序矩阵输入SGE电力预测方法;将SGE模型最终电力负荷预测值与电力负荷真实值进行对比,得出模型的效果。本发明SGE模型相较于其他模型可以实现较快的收敛,并且可解释性强,对噪声数据具有一定的鲁棒性,在处理异常数据上有较为优秀的表现。

    一种基于表示学习的实体发现和实体链接联合优化方法

    公开(公告)号:CN115329093A

    公开(公告)日:2022-11-11

    申请号:CN202210904197.6

    申请日:2022-07-29

    Applicant: 燕山大学

    Abstract: 本发明公开了一种基于表示学习的实体发现和实体链接联合优化方法,属于深度学习和自然语言处理技术领域,所述优化方法包括:步骤1,获取数据集;步骤2,构建锚文本词典;步骤3,定义并构建片段循环神经网络模型进行实体提取算法;步骤4,实体链接的特征选取;步骤5,神经排序模型的构建。本发明通过构建基于表示学习的实体发现和实体链接联合的模型,其中,基于片段式的循环神经网络可以直接对实体边界识别进行优化,而实体链接的信息又可以帮助实体发现进行边界识别,有效地解决了实体边界不准确影响实体链接的问题;有效避免了实体边界不准确影响实体链接效果的问题,并且可以同时优化实体发现和实体链接的结果。

    基于预训练模型与决策树的增量式论文同名作者消歧方法

    公开(公告)号:CN115329072A

    公开(公告)日:2022-11-11

    申请号:CN202210906649.4

    申请日:2022-07-29

    Applicant: 燕山大学

    Abstract: 本发明公开了基于预训练模型与决策树的增量式论文同名作者消歧方法,属于神经网络与作者同名消歧技术领域,所述方法利用人工定义特征与XLNet提取特征相结合的特征提取,首先使用人工定义特征提取论文中作者名称、机构等字段的信息,使用XLNet提取论文标题、摘要等字段的信息,之后利用XGBoost与提取出的特征来预测每篇论文应该归属的正确作者,对于该步未能分配出的论文进行凝聚式聚类的后处理,获取主聚类作为新的作者论文集,预测结果使用准确率、召回率以及F1值。本发明能够对论文的信息进行更加充分地提取,具有较强的可解释性,具有较强的鲁棒性,在处理噪点较多以及论文信息较为齐全的数据上有较优秀的表现。

Patent Agency Ranking