一种基于归一化最小生成树聚类的离群点检测方法
摘要:
本发明公开了一种基于归一化最小生成树聚类的离群点检测方法,分析网页内容数据集,判断其中的内容是文本数据还是非文本数据,先计算一个归一化的最小生成树,然后选择网页文本数据中的任意一个点作为构造树的初始点加入归一化最小生成树中,计算剩下的所有点到树中点的归一化距离作为两点组成的边的权重,选择最小权重的边,将其两端点加入到树中,循环计算已经加入树中的点到树中点的最小归一化距离,得到一个最小生成树,然后根据簇中点数是否大于簇中最大点数对簇进行切割,将所有边的权重按从大到小的顺序排序,然后切前k‑1条最长边,得到k个簇,然后判断每个簇中的点是否是离群点。本发明能够较为准确的检测出离群点。
0/0