-
公开(公告)号:CN113836289B
公开(公告)日:2023-06-09
申请号:CN202110938544.2
申请日:2021-08-16
Applicant: 北京邮电大学
IPC: G06F16/335 , G06F16/33 , G06F16/35 , G06F16/901
Abstract: 本说明书一个或多个实施例提供一种实体演进规律推荐方法及装置,包括:根据输入的实体关键词,搜索获到与实体关键词有关的搜索内容,对搜索内容进行语义扩展,得到语义扩展后的搜索内容,从语义扩展后的搜索内容中提取语义特征,确定语义特征之间的语义关联关系,根据语义关联关系构建图结构,基于图结构进行聚类,得到至少一个实体组,计算实体关键词所在实体组的热度值,根据热度值计算结果输出推荐结果。本实施例的方法能够向用户推荐有关实体关键词的研究热度及演进规律,且计算效率较高,推荐结果准确。
-
公开(公告)号:CN113255340B
公开(公告)日:2021-11-02
申请号:CN202110778811.4
申请日:2021-07-09
Applicant: 北京邮电大学
IPC: G06F40/258 , G06F40/284 , G06F16/35
Abstract: 本发明提供一种面向科技需求的主题提取方法、装置和存储介质,所述方法包括:获取科技需求文本数据,所述科技需求文本数据中携带行业领域一级主题类别标签;基于属于同一一级主题类别的科技需求文本数据分别获得单词向量和文档向量;利用基于深度学习的主题模型基于所述单词向量和文档向量获取主题词向量表示和主题词集;以主题词向量为基础基于预定的聚类数目对科技需求文本数据进行聚类;利用文本排序算法对主题词集内的主题词作为关键词进行提取并对提取的主题词进行排序,根据主题词得分筛选出作为二级聚类主题类别标签词的主题词,并将得分最高的主题词作为本类别二级主题代表。本发明提高了科技资源信息主题提取的准确率。
-
公开(公告)号:CN113268995A
公开(公告)日:2021-08-17
申请号:CN202110814460.8
申请日:2021-07-19
Applicant: 北京邮电大学
Abstract: 本发明提供一种中文学术关键词抽取方法、装置和存储介质,该方法包括以下步骤:从学术文本数据集中获得学术预料,输入至包含外部语义信息的预训练模型,生成输入的学术语料的动态字向量;基于所述动态字向量获得动态字向量输入序列输入至BiLSTM‑CRF序列标注模型,得到输入序列对应的标签序列的得分,基于得分获得最优标签序列,并基于得到的最优标签序列结果得到候选关键词集;基于候选关键词集中候选关键词的标题相似度和词频逆向文档频率TFIDF特征对候选关键词进行排序,基于排序结果获取目标关键词。
-
公开(公告)号:CN113254602A
公开(公告)日:2021-08-13
申请号:CN202110763594.1
申请日:2021-07-06
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/216 , G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/18
Abstract: 本发明提供一种面向科技政策领域的知识图谱构建方法及系统,所述方法包括:获取待处理科技政策内容文本,并根据BERT模型生成所述待处理科技政策内容文本的字向量;根据双向长短时记忆网络BLSTM模型对所述字向量进行特征提取,得到所述待处理科技政策内容文本的时序特征向量;根据条件随机场CRF模型对所述时序特征向量进行实体识别,得到实体识别结果;通过双向门控循环单元层生成所述实体识别结果对应的特征向量;基于双重注意力机制对所述实体识别结果对应的特征向量进行重要特征提取,并将提取到的重要特征输送至分类层对实体关系进行分类,获取实体关系分类结果;根据实体识别结果及实体关系分类结果构建所述待处理科技政策内容文本的知识图谱。
-
公开(公告)号:CN113254655B
公开(公告)日:2021-09-17
申请号:CN202110757754.1
申请日:2021-07-05
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F40/289 , G06F40/35
Abstract: 本发明提供了一种文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取多个话题类别及其对应的多个词和多个文档;统计每个话题类别的所有文档中包含该话题类别对应的每个词的第一文档数量和所有话题类别的所有文档中包含每个话题类别的每个词的第二文档数量;计算每个话题类别的每个词的第一文档数量与第二文档数量的比值,作为词对话题覆盖率;若词的词对话题覆盖率大于设定阈值,将该词选作相应话题类别的特征词,得到相应类别特征词袋;对待分类文档分词,以得到待分类文档的词袋模型;计算待分类文档的词袋模型与各类别特征词袋的相似度;根据各相似度确定该待分类文档的类别。通过上述方案能够利用较少标注完成文本分类任务。
-
公开(公告)号:CN113254656A
公开(公告)日:2021-08-13
申请号:CN202110763595.6
申请日:2021-07-06
Applicant: 北京邮电大学
Abstract: 本发明提供了一种专利文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取专利文本的字向量表示;利用卷积神经网络提取字向量表示中的短语特征;利用长短时记忆网络提取字向量表示中的上下文特征;利用注意力层为长短时记忆网络输出的隐层特征向量添加不同权重,以突出区分度较大部分并降低文本结构和重复度较高结构权重,得到第一注意力层的输出;利用全连接层将第一注意力层的输出压缩为与短语特征的维度匹配的特征向量;将专利文本的短语特征和上下文特征连接得到输入向量,利用第二注意力层为输入向量添加注意力权重,以减少融合过程信息损失,得到融合特征向量,用于对专利文本分类。通过上述方案能够提高专利文本分类准确性。
-
公开(公告)号:CN113254655A
公开(公告)日:2021-08-13
申请号:CN202110757754.1
申请日:2021-07-05
Applicant: 北京邮电大学
IPC: G06F16/35 , G06F40/289 , G06F40/35
Abstract: 本发明提供了一种文本分类方法、电子设备及计算机存储介质,其中,该方法包括:获取多个话题类别及其对应的多个词和多个文档;统计每个话题类别的所有文档中包含该话题类别对应的每个词的第一文档数量和所有话题类别的所有文档中包含每个话题类别的每个词的第二文档数量;计算每个话题类别的每个词的第一文档数量与第二文档数量的比值,作为词对话题覆盖率;若词的词对话题覆盖率大于设定阈值,将该词选作相应话题类别的特征词,得到相应类别特征词袋;对待分类文档分词,以得到待分类文档的词袋模型;计算待分类文档的词袋模型与各类别特征词袋的相似度;根据各相似度确定该待分类文档的类别。通过上述方案能够利用较少标注完成文本分类任务。
-
公开(公告)号:CN113641785B
公开(公告)日:2023-08-01
申请号:CN202110721872.7
申请日:2021-06-28
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/36 , G06F16/903 , G06F40/30 , G06F18/22
Abstract: 本公开提供一种基于多维度的科技资源相似词检索方法及电子设备,所述方法包括:获取预先构建的科技资源知识库,所述科技资源知识库内存储有科技资源实体词,至少一组所述科技资源实体词之间具有相似关系;获取用户输入的检索词;对所述检索词进行第一维度相似关系判定、第二维度相似关系判定或第三维度相似关系判定。本公开的检索方法及电子设备,有效解决了科研人员对跨学科专业词语掌握不准确、不全面的问题,有效降低跨学科检索科技成果的难度。
-
公开(公告)号:CN113254602B
公开(公告)日:2022-03-08
申请号:CN202110763594.1
申请日:2021-07-06
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/35 , G06F16/36 , G06F40/211 , G06F40/216 , G06F40/295 , G06F40/30 , G06K9/62 , G06N3/04 , G06N3/08 , G06Q50/18
Abstract: 本发明提供一种面向科技政策领域的知识图谱构建方法及系统,所述方法包括:获取待处理科技政策内容文本,并根据BERT模型生成所述待处理科技政策内容文本的字向量;根据双向长短时记忆网络BLSTM模型对所述字向量进行特征提取,得到所述待处理科技政策内容文本的时序特征向量;根据条件随机场CRF模型对所述时序特征向量进行实体识别,得到实体识别结果;通过双向门控循环单元层生成所述实体识别结果对应的特征向量;基于双重注意力机制对所述实体识别结果对应的特征向量进行重要特征提取,并将提取到的重要特征输送至分类层对实体关系进行分类,获取实体关系分类结果;根据实体识别结果及实体关系分类结果构建所述待处理科技政策内容文本的知识图谱。
-
公开(公告)号:CN113641785A
公开(公告)日:2021-11-12
申请号:CN202110721872.7
申请日:2021-06-28
Applicant: 北京邮电大学
IPC: G06F16/33 , G06F16/36 , G06F16/903 , G06F40/30 , G06K9/62
Abstract: 本公开提供一种基于多维度的科技资源相似词检索方法及电子设备,所述方法包括:获取预先构建的科技资源知识库,所述科技资源知识库内存储有科技资源实体词,至少一组所述科技资源实体词之间具有相似关系;获取用户输入的检索词;对所述检索词进行第一维度相似关系判定、第二维度相似关系判定或第三维度相似关系判定。本公开的检索方法及电子设备,有效解决了科研人员对跨学科专业词语掌握不准确、不全面的问题,有效降低跨学科检索科技成果的难度。
-
-
-
-
-
-
-
-
-