-
公开(公告)号:CN110196907A
公开(公告)日:2019-09-03
申请号:CN201910297074.9
申请日:2019-04-15
Applicant: 中国石油大学(华东)
Abstract: 本发明实施例提供了一种多层次文本聚类方法和装置,该方法可以在多个层次对文本数据进行不同粒度的聚类。对所获取的文本数据进行数据预处理操作后根据范化数据的不同特征以及在数据表中所属的不同类别,将规范化后数据分为全部数据即最广义层次、子级分类层次、自定义分类层次等是三个不同层次,然后采用Word2vec进行文本词向量的训练,基于文本词向量训练结果得到一条文本数据的二维坐标作为一个数据节点的坐标,通过计算所有数据节点的相对距离,并根据不同的数据量,动态更新算法截断距离,最终通过计算每个数据节点的局部密度与相对距离确,保存聚类结果并生成数据可视化图聚类中心,并根据各个聚类中心,将不同数据聚为一类。