-
公开(公告)号:CN108170840B
公开(公告)日:2019-11-19
申请号:CN201810036779.0
申请日:2018-01-15
Applicant: 浙江大学
Abstract: 本发明公开了一种面向文本的领域分类关系自动学习方法,采用MEDLINE作为语料库,进行术语抽取与概念抽取,将抽取到的概念进行基于句法相似度和语义相似度的五个维度相似度的计算,然后各个维度的相似度进行加权,得出最终相似度矩阵,以此为依据进行层次聚类得出初始的树状图,再对树状图进行相应的剪枝和聚簇标记,最终得出体现概念之间的分类关系树状图;本发明不需要大量的手工标记,节省了人力与时间开销;将抽取到的术语与权威知识库UMLS超级叙词表进行映射,得出准确的领域概念;采用层次聚类的分布式方法,结合领域背景知识,提供五个维度相似度的计算;提出基于极值距离估计的无监督的层次聚类动态剪枝方法,能够更好地得出领域相关的分类关系。
-
公开(公告)号:CN108170840A
公开(公告)日:2018-06-15
申请号:CN201810036779.0
申请日:2018-01-15
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种面向文本的领域分类关系自动学习方法,采用MEDLINE作为语料库,进行术语抽取与概念抽取,将抽取到的概念进行基于句法相似度和语义相似度的五个维度相似度的计算,然后各个维度的相似度进行加权,得出最终相似度矩阵,以此为依据进行层次聚类得出初始的树状图,再对树状图进行相应的剪枝和聚簇标记,最终得出体现概念之间的分类关系树状图;本发明不需要大量的手工标记,节省了人力与时间开销;将抽取到的术语与权威知识库UMLS超级叙词表进行映射,得出准确的领域概念;采用层次聚类的分布式方法,结合领域背景知识,提供五个维度相似度的计算;提出基于极值距离估计的无监督的层次聚类动态剪枝方法,能够更好地得出领域相关的分类关系。
-