-
公开(公告)号:CN116578884A
公开(公告)日:2023-08-11
申请号:CN202310831630.2
申请日:2023-07-07
Applicant: 北京邮电大学
IPC: G06F18/22 , G06F18/25 , G06F16/901 , G06N20/00
Abstract: 本发明提供一种基于异质信息网络表示学习的科研团队识别方法及装置,属于大数据技术领域,包括:获取学术异质信息网络信息,构建异质图网络结构,确定各节点的元路径、元路径邻接向量和邻居节点;将元路径、元路径邻接向量和邻居节点输入至训练好的嵌入表示学习模型中得到各节点与其各邻居节点的结构特征相似度、各邻居节点的第一节点级别注意力权重;基于第一节点级别注意力权重计算节点的第二节点级别注意力权重,基于第二节点级别注意力权重确定科研团队负责人;基于各第一节点级别注意力权重及各节点与其邻居节点的结构特征相似度确定核心成员和非核心成员。该方法可准确的识别学术异质信息网络中的科研团队的负责人、核心成员、非核心成员。
-
公开(公告)号:CN115618257B
公开(公告)日:2023-07-21
申请号:CN202211610097.9
申请日:2022-12-15
Applicant: 北京邮电大学
IPC: G06F18/23213 , G06F40/284
Abstract: 本申请提供一种基于多视角的学者动态兴趣聚类方法及装置,方法包括:获取各个学者在目标时段内发布的包括多种内部视角文本数据的学术成果短文本数据对应的词汇集合,词汇集合包括各个词汇以及每个词汇对应的学者标识和外部视角数据;采用词汇集合、各个学者在前一时段内的多个内部视角以及外部视角各自对应的历史兴趣概率分布数据,基于主题聚类模型获取各个学者在目标时段内的多个内部视角各自对应的兴趣概率分布数据,以基于兴趣概率分布数据针对目标时段对各个学者进行动态兴趣聚类。本申请能够从多种视角实现动态的追踪学者兴趣,能够有效提高学者动态兴趣聚类的有效性及可靠性,为学者动态兴趣的挖掘及后续应用提供有效且全面的数据基础。
-
公开(公告)号:CN115618257A
公开(公告)日:2023-01-17
申请号:CN202211610097.9
申请日:2022-12-15
Applicant: 北京邮电大学
IPC: G06F18/23213 , G06F40/284
Abstract: 本申请提供一种基于多视角的学者动态兴趣聚类方法及装置,方法包括:获取各个学者在目标时段内发布的包括多种内部视角文本数据的学术成果短文本数据对应的词汇集合,词汇集合包括各个词汇以及每个词汇对应的学者标识和外部视角数据;采用词汇集合、各个学者在前一时段内的多个内部视角以及外部视角各自对应的历史兴趣概率分布数据,基于主题聚类模型获取各个学者在目标时段内的多个内部视角各自对应的兴趣概率分布数据,以基于兴趣概率分布数据针对目标时段对各个学者进行动态兴趣聚类。本申请能够从多种视角实现动态的追踪学者兴趣,能够有效提高学者动态兴趣聚类的有效性及可靠性,为学者动态兴趣的挖掘及后续应用提供有效且全面的数据基础。
-
公开(公告)号:CN114863194B
公开(公告)日:2022-11-18
申请号:CN202210807253.4
申请日:2022-07-11
Applicant: 北京邮电大学
IPC: G06V10/764 , G06V10/774 , G06V10/82 , G06V30/18 , G06V30/19 , G06V10/40 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明提供一种面向科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置,基于对抗学习的方式构建特征映射器和媒体判别器,利用特征映射器将图像数据或文字数据的映射至一个统一的隐嵌入空间提取特征进行比对,在对抗学习过程中,通过构建联合损失使特征映射器关注语义特征在不同科技类别下的区别性、关注不同媒体间数据语义特征上的一致性,同时关注到对语义特征在媒体类别上的差异性,使得最终的特征映射器突破不同媒体之间提取语义特征的局限性,提高了科技资讯跨媒体检索的准确率。
-
公开(公告)号:CN114817576B
公开(公告)日:2022-11-18
申请号:CN202210738354.0
申请日:2022-06-28
Applicant: 北京邮电大学
Abstract: 本发明提供一种模型训练及专利知识图谱补全方法、装置及存储介质,该方法包括:获取包含目标补全类型实体的训练专利文本集合;识别并抽取每个训练专利文本中的所有实体,筛选出词频超过阈值的识别并抽取到的实体构成候选实体集合;将所述训练专利文本集合作为实体训练数据集,将所述候选实体集合中的每个实体作为一个分类标签;若专利文本与实体为一一对应关系,则使用Sigmoid函数来归一化分类标签,使用二元交叉熵作为损失函数,进行多分类任务训练以获得专利知识图谱补全模型;若非一一对应关系,则使用Softmax函数来归一化分类标签,交叉熵作为损失函数,进行多标签分类任务训练以获得专利知识图谱补全模型。本发明能够准确、高效的专利知识图谱补全。
-
公开(公告)号:CN113254602A
公开(公告)日:2021-08-13
申请号:CN202110763594.1
申请日:2021-07-06
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/216 , G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/18
Abstract: 本发明提供一种面向科技政策领域的知识图谱构建方法及系统,所述方法包括:获取待处理科技政策内容文本,并根据BERT模型生成所述待处理科技政策内容文本的字向量;根据双向长短时记忆网络BLSTM模型对所述字向量进行特征提取,得到所述待处理科技政策内容文本的时序特征向量;根据条件随机场CRF模型对所述时序特征向量进行实体识别,得到实体识别结果;通过双向门控循环单元层生成所述实体识别结果对应的特征向量;基于双重注意力机制对所述实体识别结果对应的特征向量进行重要特征提取,并将提取到的重要特征输送至分类层对实体关系进行分类,获取实体关系分类结果;根据实体识别结果及实体关系分类结果构建所述待处理科技政策内容文本的知识图谱。
-
公开(公告)号:CN116955699B
公开(公告)日:2024-04-26
申请号:CN202310882289.3
申请日:2023-07-18
Applicant: 北京邮电大学
IPC: G06F16/735 , G06N3/044 , G06N3/0442 , G06N3/08 , G06F16/783
Abstract: 本发明提供一种视频跨模态搜索模型训练方法、搜索方法及装置,对于用于检索的文本数据采用文字特征编码模型和初始文本语义映射网络映射至公共语义空间;被检索的科技视频通过光学字符识别和科技视频自动语音识别提取文本内容,提取首尾帧图像内容,分别进行特征提取后执行特征融合,并通过初始视频语义映射网络映射至公共语义空间;在下游构建相似度比对任务、语义分类任务和模态判别任务,对初始文本语义映射网络、初始模态融合网络和初始视频语义映射网络进行训练,提升文本和视频两种类型数据在公共语义空间内表示的精确度,并关注到模态内和模态间的关联及差异。
-
公开(公告)号:CN114840645A
公开(公告)日:2022-08-02
申请号:CN202210776673.0
申请日:2022-07-04
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F40/211 , G06F40/30 , G06K9/62 , G06N3/08
Abstract: 本申请提供一种专家学者科技资源信息的文本语义检索方法及装置,方法包括:对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量进行线性变换,得到标准正交基下的文本语义向量集和关键词语义向量;基于针对专家学者科技资源信息的多维相似度计算方式,对关键词语义向量与文本语义向量集进行余弦相似度计算,以确定文本语义检索结果。本申请能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;并能够在提高语义检索结果的有效性及可用性的基础上,满足余弦相似度所适用场景,还能够有效提高专家学者科技资源文本语义检索结果的多样性及全面性。
-
公开(公告)号:CN113254601B
公开(公告)日:2022-06-07
申请号:CN202110763158.4
申请日:2021-07-06
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/35 , G06F16/36 , G06F16/951 , G06F40/216 , G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/18
Abstract: 本发明提供一种面向知识产权的科技资源画像构建方法、装置和存储介质,所述方法包括:获取结构化的知识产权科技资源数据;对获得的知识产权科技资源数据进行数据预处理,得到专利文本特征数据;基于专利文本特征数据得到分词向量和字符向量,将其作为原始输入文本输入双向长短时循环网络模型,并将其输出向量进一步输入至与分词词性注意力模型相结合的字符级别的注意力模型,以得到知识产权科技资源数据的实体识别结果;利用结构化的知识产权科技资源数据和实体识别结果构建实体间关系;基于得到的实体识别结果和实体间的关系,利用数据统计进行知识产权科技资源数据知识图谱的构建,并基于构建的知识图谱得到面向知识产权的科技资源画像。
-
公开(公告)号:CN113204652A
公开(公告)日:2021-08-03
申请号:CN202110757753.7
申请日:2021-07-05
Applicant: 北京邮电大学
Abstract: 本申请提供了一种知识表示学习方法和装置,其中,该方法包括:获取负样本候选实体集合;通过对抗生成网络,以基于语义匹配的模型作为生成器,对所述负样本候选实体集合进行抽样;以基于翻译距离的模型作为判别器,对抽样结果进行判别,得到被选定的负样本三元组;将被选定的负样本三元组对应的第一个和最后一个实体的描述和关系转化为文本序列,并利用BERT的下一句预选任务将文本序列转化为二元分类问题,以实现知识表示学习。通过上述方案解决了现有的知识表示学习过程中生成的负样本质量较差,无法得到丰富的外部语义的技术问题,达到了提升负样本的质量,且在知识图生成的过程中使得文本数据得到充分利用的技术效果。
-
-
-
-
-
-
-
-
-