用于电网业务大数据检测分析的聚类方法及装置

    公开(公告)号:CN112396090A

    公开(公告)日:2021-02-23

    申请号:CN202011135966.8

    申请日:2020-10-22

    IPC分类号: G06K9/62 G06N20/20 G06Q50/06

    摘要: 本申请实施例提出了用于电网业务大数据检测分析的聚类方法及装置,包括在电网大数据平台处通过核心路由节点收集包括发送方IP地址、接收方IP地址、发送时间在内的全网数据包;解析全网数据包得到对应每个发送方IP地址发送数据包的数量以及每个接收方IP地址接收数据包的数量,基于得到的数量进行统计得到针对未知IP地址的未知数据集;根据已知数据集确定中心点;计算未知数据集中的每个点与中心点的最短距离,对未知数据集的点执行聚类操作。利用大数据对全网数据进行处理,将已知的异常数据发送方IP地址作为重要训练样本;最密集的区域是最有可能出现潜在风险点,作为起始中心点,能够指引后续的聚类;并借助抛弃边缘点的做法提高了聚类效率。