一种面向样本不均衡的网络流量数据增强方法

    公开(公告)号:CN114781492A

    公开(公告)日:2022-07-22

    申请号:CN202210325598.6

    申请日:2022-03-30

    Abstract: 本发明涉及流量数据增强领域,针对网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的难题,提出了一种面向样本不均衡的网络流量数据增强方法。本发明对网络流量数据集进行聚类后划分少数类样本集合和多数类样本集合,通过计算聚类后数据中少数类样本的稀疏度和差异度,为少数类样本赋予初始权重后,基于SMOTE合成新样本并生成新的数据集。通过本发明提出的过采样数据增强方法,可以更有效地选择出数据集中分布稀疏处样本和边界处样本,提升生成数据的质量。本发明提供的方法为类别不平衡数据集提供了快速、有效的数据增强方案,适用于输入为网络流量数据集的分类模型执行前的数据增强过程。

    一种面向样本不均衡的网络流量数据增强方法

    公开(公告)号:CN114781492B

    公开(公告)日:2024-11-08

    申请号:CN202210325598.6

    申请日:2022-03-30

    Abstract: 本发明涉及流量数据增强领域,针对网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的难题,提出了一种面向样本不均衡的网络流量数据增强方法。本发明对网络流量数据集进行聚类后划分少数类样本集合和多数类样本集合,通过计算聚类后数据中少数类样本的稀疏度和差异度,为少数类样本赋予初始权重后,基于SMOTE合成新样本并生成新的数据集。通过本发明提出的过采样数据增强方法,可以更有效地选择出数据集中分布稀疏处样本和边界处样本,提升生成数据的质量。本发明提供的方法为类别不平衡数据集提供了快速、有效的数据增强方案,适用于输入为网络流量数据集的分类模型执行前的数据增强过程。

Patent Agency Ranking