发明公开
- 专利标题: 一种基于归一化最小生成树聚类的离群点检测方法
-
申请号: CN202110046982.8申请日: 2021-01-14
-
公开(公告)号: CN112948732A公开(公告)日: 2021-06-11
- 发明人: 李佳 , 王晓春
- 申请人: 西安交通大学
- 申请人地址: 陕西省西安市咸宁西路28号
- 专利权人: 西安交通大学
- 当前专利权人: 西安交通大学
- 当前专利权人地址: 陕西省西安市咸宁西路28号
- 代理机构: 西安通大专利代理有限责任公司
- 代理商 贺小停
- 主分类号: G06F16/958
- IPC分类号: G06F16/958 ; G06K9/62
摘要:
本发明公开了一种基于归一化最小生成树聚类的离群点检测方法,分析网页内容数据集,判断其中的内容是文本数据还是非文本数据,先计算一个归一化的最小生成树,然后选择网页文本数据中的任意一个点作为构造树的初始点加入归一化最小生成树中,计算剩下的所有点到树中点的归一化距离作为两点组成的边的权重,选择最小权重的边,将其两端点加入到树中,循环计算已经加入树中的点到树中点的最小归一化距离,得到一个最小生成树,然后根据簇中点数是否大于簇中最大点数对簇进行切割,将所有边的权重按从大到小的顺序排序,然后切前k‑1条最长边,得到k个簇,然后判断每个簇中的点是否是离群点。本发明能够较为准确的检测出离群点。
公开/授权文献
- CN112948732B 一种基于归一化最小生成树聚类的离群点检测方法 公开/授权日:2023-08-22