融合知识信息和协同信息的推荐方法、装置、设备及介质

    公开(公告)号:CN117216417A

    公开(公告)日:2023-12-12

    申请号:CN202311468633.0

    申请日:2023-11-07

    摘要: 本发明涉及一种融合知识信息和协同信息的推荐方法、装置、设备及介质,属于推荐技术领域,解决了现有技术中推荐方法存在的信息融合不足导致推荐结果准度低的问题。本发明技术方案主要包括:通过图神经网络对交互图进行编码以获得第一对象协作信息表示和第二对象协作信息表示;通过图神经网络对知识图谱进行编码以获得第一对象知识信息表示和第二对象知识信息表示;通过注意力机制将协作信息表示和知识信息表示融合为信息表示;构建训练样本集,基于第一对象信息表示和第二对象信息表示对训练样本集中的样本对进行推荐评估,根据交互集和未交互集各自的样本推荐评估差异确定损失值,基于损失值进行模型训练;通过训练后模型推荐预测分数。

    一种知识图谱构建和动态扩展方法、装置、设备及介质

    公开(公告)号:CN116502711B

    公开(公告)日:2023-09-26

    申请号:CN202310766016.2

    申请日:2023-06-27

    摘要: 本申请涉及一种知识图谱构建和动态扩展方法、装置、设备及介质,属于知识图谱技术领域,解决了现有技术中对于知识图谱的构建和动态扩展中通用性差的问题。本申请技术方案主要包括:基于扩展前的第一知识图谱进行正三元组采样以及对应的负采样构建自监督数据集,使得知识图谱的扩展无需借用外部数据,同时通过改进负采样并采用不同的关系生成训练样本,一方面提高了微调后的模型对于预测任务结果的准确性,另一方面设置不同的关系内容可以提高图谱构建的通用性。此外,还通过改进的链接位置匹配算法中考虑到垂直路径和得分的关系以及第一知识图谱的不完整性,提高知识图谱扩展时的链接位置和链接方式的准确性和通用性。

    基于混合相似度的文献主题分类方法、装置、设备及介质

    公开(公告)号:CN116644338A

    公开(公告)日:2023-08-25

    申请号:CN202310638201.3

    申请日:2023-06-01

    摘要: 本申请涉及一种基于混合相似度的文献主题分类方法、装置、设备及介质,属于大数据技术领域,解决了现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。本申请技术方案主要包括:获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签。

    一种知识图谱构建和动态扩展方法、装置、设备及介质

    公开(公告)号:CN116502711A

    公开(公告)日:2023-07-28

    申请号:CN202310766016.2

    申请日:2023-06-27

    摘要: 本申请涉及一种知识图谱构建和动态扩展方法、装置、设备及介质,属于知识图谱技术领域,解决了现有技术中对于知识图谱的构建和动态扩展中通用性差的问题。本申请技术方案主要包括:基于扩展前的第一知识图谱进行正三元组采样以及对应的负采样构建自监督数据集,使得知识图谱的扩展无需借用外部数据,同时通过改进负采样并采用不同的关系生成训练样本,一方面提高了微调后的模型对于预测任务结果的准确性,另一方面设置不同的关系内容可以提高图谱构建的通用性。此外,还通过改进的链接位置匹配算法中考虑到垂直路径和得分的关系以及第一知识图谱的不完整性,提高知识图谱扩展时的链接位置和链接方式的准确性和通用性。

    一种快速提取文本中机构名称的方法和装置

    公开(公告)号:CN114676214A

    公开(公告)日:2022-06-28

    申请号:CN202210200301.3

    申请日:2022-03-02

    IPC分类号: G06F16/31 G06F16/36

    摘要: 本发明公开了一种快速提取文本中机构名称的方法和装置,其中,该方法包括:获取候选机构列表,候选机构列表包括至少一个机构名称;根据组成机构名称的单词特征信息,对机构名称进行打分并得到打分结果,以计算机构名称的重要程度,并根据组成候选机构列表中的机构名称构造AC自动机;其中,单词特征信息包括:单词出现次数、稀有度和长度中的多种;将待提取文本输入AC自动机,通过构造的AC自动机进行文字匹配,以得到待提取文本中包含的机构名称;根据机构名称的重要程度,从AC自动机筛选出待提取文本中包含的机构名称中得分最高的机构。本发明降低了提取方法成本,提升了实时性和准确性,降低了跨语言机构提取难度。

    一种基于矩阵分解和BP神经网络的公平推荐方法和装置

    公开(公告)号:CN114298780A

    公开(公告)日:2022-04-08

    申请号:CN202111371121.3

    申请日:2021-11-18

    摘要: 本发明公开了一种基于矩阵分解和BP神经网络的公平推荐方法和装置,其中,该方法包括:存取推荐所需的关系图谱信息,基于关系图谱信息,使用字符串处理库对字符串进行数据预处理,以得到预处理函数;基于预处理函数,使用预定义划分公式将所有的待推荐物品划分为热门物品和非热门物品;对于热门物品的推荐,对热门物品使用BP神经网络训练残差,将残差融合到MF算法中,以得出第一推荐评分;对于非热门物品的推荐,使用用户预先给出的信息,利用公平推荐算法,计算得到第二推荐评分;根据第一推荐评分和第二推荐评分,获取预设个数进行推荐。本发明实现了针对非热门物品的公平推荐,在推荐系统中融入了情景因素,提升了推荐的准确性。

    一种基于异构信息网络的新闻事件发现算法及装置

    公开(公告)号:CN113742464A

    公开(公告)日:2021-12-03

    申请号:CN202110867857.3

    申请日:2021-07-28

    摘要: 本发明提出一种基于异构信息网络的新闻事件发现算法及装置,方法包括:对多种话题的新闻进行抽取同时进行预处理,根据各关键词的重要程度选取文章的多个关键词,根据多个关键词生成关键词集合;将关键词集合进行情感信息的融合,经过预测模型预测得到事件群;将事件群进行元路径或元图的构造,得到构造矩阵,并根据构造矩阵生成距离矩阵;将距离矩阵与事件群通过图注意力网络进行特征提取,得到特征矩阵;根据特征矩阵构建推荐簇;选取推荐簇中大于原始文章相似度预设阈值的新闻进行推荐。本申请提出的方法可以将文章的感情信息融入,在一定程度上提高新闻话题推荐的准确性;还可以通过HIN进行距离矩阵的构建,减少了模型训练的时间复杂度。

    GNN编码器及基于图上下文学习的异常点检测方法

    公开(公告)号:CN113076738A

    公开(公告)日:2021-07-06

    申请号:CN202110385328.X

    申请日:2021-04-09

    摘要: 本申请提出了一种基于图上下文学习的异常点检测方法,涉及计算机网络信息技术领域,其中,该方法包括:提出了CoGCL框架,利用图上下文对比学习来衡量异常与正常节点与图上下文的距离。为了达到对比学习的目的,本专利设计了一个图编码器,它可以一定程度去除可疑链接的同时,学习图上下文的表示。为了缓解标注数据的稀缺性影响,本专利额外将CoGCL扩展为一种无需标注数据的自监督预训练框架CoGCL‑pre。该框架通过一种图扰乱策略,可以自动生成伪标签来进行自监督学习。采用上述方案的CoGCL框架明显优于现有各种对比方法;其无需监督数据的自监督版本CoGCL‑pre可以达到与完全监督版本CoGCL相当的效果,并且解决了标注数据稀缺性对监督学习的影响。

    一种基于深度学习的技术溯源的方法

    公开(公告)号:CN116049449A

    公开(公告)日:2023-05-02

    申请号:CN202310034573.5

    申请日:2023-01-10

    摘要: 本发明提出一种基于深度学习的技术溯源的方法,包括,获取溯源目标领域的代表性关键词,利用预先构建的强相关词典对关键词进行扩充,得到扩展关键词;根据大规模语训练模型OAGBRT对代表性关键词及扩展关键词进行向量表示,获取多个关键词向量;利用多层MLP对多个关键词向量进行合并和特征提取;根据提取的特征通过LSTM循环神经网络进行溯源序列的预测;根据溯源序列的预测输出溯源目标领域的技术发展链条。通过本发明提出的方法,解决了技术溯源预测的问题。

    一种基于语义的无监督学术关键词提取方法及设备

    公开(公告)号:CN115186665B

    公开(公告)日:2023-02-21

    申请号:CN202211118339.2

    申请日:2022-09-15

    摘要: 本发明涉及一种基于语义的无监督学术关键词提取方法及设备,属于自然语言处理技术领域;包括以下步骤:获取待识别论文,利用所述论文的标题和摘要作为待识别文本;基于预先构建的学术词表对所述论文的待识别文本进行分词;根据分词后得到的每个词的词长、词位置和词的TF‑IDF得分,计算每个词的综合得分;基于所述综合得分,得到候选关键词;将所述候选关键词与所述待识别文本输入预先训练的深度语义模型,得到所述关键词与论文标题和摘要的语义相似度;选择所述语义相似度大于阈值的关键词,得到所述待识别论文的学术关键词。本发明解决了现有的关键词提取方法存在噪音词且效率低的问题。