科技论文数据文本语义特征提取方法、系统及存储介质

    公开(公告)号:CN114818737B

    公开(公告)日:2022-11-18

    申请号:CN202210745539.4

    申请日:2022-06-29

    Abstract: 本发明提供一种科技论文数据文本语义特征提取方法、系统及存储介质,所述方法包括:获取科技论文的文本信息,并基于获取到的科技论文的文本信息构建实体关系图,所述文本信息包括论文标题以及关键词,实体关系图中的节点为论文标题或关键词,实体关系图中的边为节点之间的关联关系;基于获取到的科技论文的文本信息提取语义特征,得到语义特征矩阵;基于实体关系图确定原始邻接矩阵,将语义特征矩阵及所述原始邻接矩阵输入至图网络模型,得到空间特征矩阵;将语义特征矩阵与空间特征矩阵进行特征融合,得到科技论文的最终语义特征。该特征提取方法在提取科技论文语料的语义特征的基础上,利用知识图谱的空间关联,可较好的提取到科技论文的语义特征。

    科技论文引用关系表示学习方法、系统及存储介质

    公开(公告)号:CN114817578B

    公开(公告)日:2022-09-09

    申请号:CN202210745739.X

    申请日:2022-06-29

    Abstract: 本发明提供一种科技论文引用关系表示学习方法、系统及存储介质,所述方法包括:获取科技论文的关系图,所述关系图中的各节点表示各科技论文,所述关系图中的各边表示科技论文之间的引用关系;基于所述关系图确定第一科技论文特征矩阵及科技论文邻接矩阵;构建图自动编码器;将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器,得到各科技论文的第一嵌入表示。该方法可使科技论文引用关系得到更准确的表示。

    科技论文引用关系表示学习方法、系统及存储介质

    公开(公告)号:CN114817578A

    公开(公告)日:2022-07-29

    申请号:CN202210745739.X

    申请日:2022-06-29

    Abstract: 本发明提供一种科技论文引用关系表示学习方法、系统及存储介质,所述方法包括:获取科技论文的关系图,所述关系图中的各节点表示各科技论文,所述关系图中的各边表示科技论文之间的引用关系;基于所述关系图确定第一科技论文特征矩阵及科技论文邻接矩阵;构建图自动编码器;将所述第一科技论文特征矩阵及科技论文邻接矩阵输入至图自动编码器,得到各科技论文的第一嵌入表示。该方法可使科技论文引用关系得到更准确的表示。

    面向科技资源学科及研究主题信息的检索查询方法及系统

    公开(公告)号:CN113239071B

    公开(公告)日:2022-02-11

    申请号:CN202110773346.5

    申请日:2021-07-08

    Abstract: 本发明提供一种面向科技资源学科及研究主题信息的检索查询方法及系统,包括:获取科技资源信息数据的关键词,并构建关键词词库;通过BERT预训练模型生成关键词的词向量及各学科的学科名称的词向量;基于各学科名称的词向量以及关键词的词向量通过聚类算法对关键词进行聚类分析;获取历史预定时段内各类关键词所属的研究主题下的成果发表历史数据,并根据各成果发表历史数据预测未来预定时段内各类关键词所属的研究主题的成果发表发展趋势;根据未来预定时段内的各类关键词所属的研究主题下的成果数量确定各研究主题的影响力指数;根据研究主题的成果发表发展趋势以及研究主题的影响力指数确定各研究主题的排列顺序,以根据排列顺序确定检索查询结果。

    基于图卷积网络和注意力机制的文本关联方法及相关设备

    公开(公告)号:CN113535912A

    公开(公告)日:2021-10-22

    申请号:CN202110540413.9

    申请日:2021-05-18

    Abstract: 本公开提供一种基于图卷积网络和注意力机制的文本关联方法及相关设备,该方法包括:获取用户问题和文档;通过分词算法分别提取所述用户问题和所述文档的关键词及权重;利用词向量模型得到所述用户问题的词向量序列和所述文档的词向量序列;基于文档的词向量序列构建交互图;将用户问题的词向量和文档的词向量进行交互后构建视图;将所有所述视图输入预先构建的图卷积神经网络模型中,输出所述用户问题和所述文档的关联标签,其中,所述图卷积神经网络模型是经过预训练的。本公开采用图结构来表示文档,图结构可以在一定程度上保持文档中关键词之间的交互关系,既解决了词向量模型文本长度表征有限的问题,同时提高了科研论文检索的准确性。

    基于图卷积网络的科技论文层级多标签分类方法及设备

    公开(公告)号:CN113312480A

    公开(公告)日:2021-08-27

    申请号:CN202110548961.6

    申请日:2021-05-19

    Abstract: 本公开提供一种基于图卷积网络的科技论文层级多标签分类方法及设备,其中方法包括:利用注意力机制在论文与关键词的无向图上进行图形节点嵌入,输出更新后的论文节点特征;将更新后的论文节点特征输入预先训练好的多输出深度神经网络模型中,输出整体的全局标签和局部标签;通过注意力机制组合局部标签和全局标签,组合后的标签经计算处理后得到最终的论文标签分类结果。本公开提供的方法及设备丰富了论文的语义表示,在论文分类中考虑了具有相同关键词的论文之间的关联,使得论文分类更加准确;并且分类过程中每一层仅关注相应层级的标签,减少了每个层需要区分的类别数量,充分获取到不同层级标签的特征,提高了论文分类的准确性。

    一种科研项目查询评分模型训练方法、查询方法及装置

    公开(公告)号:CN113269477A

    公开(公告)日:2021-08-17

    申请号:CN202110797201.9

    申请日:2021-07-14

    Abstract: 本发明提供一种科研项目查询评分模型训练方法、查询方法及装置,所述科研项目查询评分模型训练方法,应用BERT模型更精确地提取查询、项目文档和各科研成果附加信息的语义向量,对查询和各科研成果进行关联度计算并进行分布统计得到,以体现与该查询相关的科研项目成果的质量的分布统计向量,进一步连接项目文档的语义向量得到该可研项目与查询的关联度向量。通过单文档神经网络建立关联度向量与点击概率的映射关系,以获得用于评价科研项目与查询关联度的科研项目查询评分模型。所述查询方法基于该科研项目查询评分模型计算各科研项目与查询的关联评分,综合评价科研成果与查询的关联关系和成果质量,使关联评分更加精确。

    科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置

    公开(公告)号:CN113239179A

    公开(公告)日:2021-08-10

    申请号:CN202110781559.2

    申请日:2021-07-12

    Abstract: 本发明提供一种科研技术兴趣领域识别模型训练方法、科技资源查询方法及装置,所述训练方法通过获取窗口时间内学者发布或浏览的科技文本,基于注意力机制挖掘学者的兴趣特征,通过对窗口划分时步并对各时步的输入文件添加位置编码,以提取学者在窗口时间内研究领域聚集和转移的特征,提高了对兴趣领域识别的准确性。所述科技资源查询方法中,通过多阶段检索查询重排序,在相似度判断的基础上,通过对比候选集与学者所感兴趣的技术领域特征,同时结合影响因子对候选集进行重排,提高科技资源查询的个性化程度和准确度。

    面向科技资源学科及研究主题信息的检索查询方法及系统

    公开(公告)号:CN113239071A

    公开(公告)日:2021-08-10

    申请号:CN202110773346.5

    申请日:2021-07-08

    Abstract: 本发明提供一种面向科技资源学科及研究主题信息的检索查询方法及系统,包括:获取科技资源信息数据的关键词,并构建关键词词库;通过BERT预训练模型生成关键词的词向量及各学科的学科名称的词向量;基于各学科名称的词向量以及关键词的词向量通过聚类算法对关键词进行聚类分析;获取历史预定时段内各类关键词所属的研究主题下的成果发表历史数据,并根据各成果发表历史数据预测未来预定时段内各类关键词所属的研究主题的成果发表发展趋势;根据未来预定时段内的各类关键词所属的研究主题下的成果数量确定各研究主题的影响力指数;根据研究主题的成果发表发展趋势以及研究主题的影响力指数确定各研究主题的排列顺序,以根据排列顺序确定检索查询结果。

    一种基于语义、时间和社交关系的中文微博话题检测方法及系统

    公开(公告)号:CN110489548A

    公开(公告)日:2019-11-22

    申请号:CN201910631312.5

    申请日:2019-07-12

    Abstract: 本发明提供一种基于语义、时间和社交关系的中文微博话题检测方法及系统,用以解决话题检测中微博数据由于文本短小、口语化和一词多义等缺点导致的话题检测效果不佳的问题,该方法包括步骤:采集一定时间间隔上的相关话题的微博数据;使用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)在采集的微博数据上进行预训练;通过预训练好的BERT模型对微博文本进行向量化表示,得到基于上下文语义的微博语义表示;提出综合考虑时间因素和微博之间转发关系的文本聚类算法,从而解决传统微博话题检测仅考虑文本语义相似的问题。本发明主要用于微博搜索的任务,利用相关微博的话题检测结果来提高微博搜索命中率。

Patent Agency Ranking