一种面向样本不均衡的网络流量数据增强方法

    公开(公告)号:CN114781492A

    公开(公告)日:2022-07-22

    申请号:CN202210325598.6

    申请日:2022-03-30

    Abstract: 本发明涉及流量数据增强领域,针对网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的难题,提出了一种面向样本不均衡的网络流量数据增强方法。本发明对网络流量数据集进行聚类后划分少数类样本集合和多数类样本集合,通过计算聚类后数据中少数类样本的稀疏度和差异度,为少数类样本赋予初始权重后,基于SMOTE合成新样本并生成新的数据集。通过本发明提出的过采样数据增强方法,可以更有效地选择出数据集中分布稀疏处样本和边界处样本,提升生成数据的质量。本发明提供的方法为类别不平衡数据集提供了快速、有效的数据增强方案,适用于输入为网络流量数据集的分类模型执行前的数据增强过程。

    一种面向样本不均衡的网络流量数据增强方法

    公开(公告)号:CN114781492B

    公开(公告)日:2024-11-08

    申请号:CN202210325598.6

    申请日:2022-03-30

    Abstract: 本发明涉及流量数据增强领域,针对网络流量数据难于获取且大部分数据往往彼此间差异性很小,因而时常出现数据类别严重不平衡的难题,提出了一种面向样本不均衡的网络流量数据增强方法。本发明对网络流量数据集进行聚类后划分少数类样本集合和多数类样本集合,通过计算聚类后数据中少数类样本的稀疏度和差异度,为少数类样本赋予初始权重后,基于SMOTE合成新样本并生成新的数据集。通过本发明提出的过采样数据增强方法,可以更有效地选择出数据集中分布稀疏处样本和边界处样本,提升生成数据的质量。本发明提供的方法为类别不平衡数据集提供了快速、有效的数据增强方案,适用于输入为网络流量数据集的分类模型执行前的数据增强过程。

    多模态知识增强的跨模态表示学习与检索方法及相关设备

    公开(公告)号:CN117349454A

    公开(公告)日:2024-01-05

    申请号:CN202311060456.2

    申请日:2023-08-22

    Abstract: 本公开提供一种多模态知识增强的跨模态表示学习与检索方法及相关设备,包括:获取数据信息集,其中所述数据信息集包括图像数据以及文本数据;采集所述数据信息集的局部特征,并基于所述局部特征确定所述数据信息集的细粒度特征;采集所述数据信息集的全局特征,并基于所述全局特征确定所述数据信息集的粗粒度特征;基于所述细粒度特征以及所述粗粒度特征,对所述数据信息集进行跨模态检索。本公开中,通过构建的多模态知识图谱,并基于多模态图注意力网络对模态内和模态间的隐含细粒度语义关联进行了推理,之后对推理得到的结果进行哈希映射并生成跨模态高效统一哈希表示,最终基于所生成的哈希表示进行跨模态检索。

Patent Agency Ranking