网络流量数据的自适应增强方法及装置

    公开(公告)号:CN113507447A

    公开(公告)日:2021-10-15

    申请号:CN202110671353.4

    申请日:2021-06-17

    Abstract: 本发明提供一种网络流量数据的自适应增强方法及装置,方法包括:基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;获取少数类聚类中少数类样本的稀疏度权重和数量权重;根据稀疏度权重和数量权重,确定少数类合成样本数量;基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。所述装置用于执行上述方法。本发明利用HAC聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,解决了现有技术中合成样本依赖信息不足的问题。

    网络流量数据的自适应增强方法及装置

    公开(公告)号:CN113507447B

    公开(公告)日:2022-09-13

    申请号:CN202110671353.4

    申请日:2021-06-17

    Abstract: 本发明提供一种网络流量数据的自适应增强方法及装置,方法包括:基于层次凝聚聚类HAC算法对原始网络流量数据集进行聚类,并根据不平衡比确定少数类聚类;获取少数类聚类中少数类样本的稀疏度权重和数量权重;根据稀疏度权重和数量权重,确定少数类合成样本数量;基于过采样算法和少数类合成样本数量,对原始网络流量数据集进行数据增强。所述装置用于执行上述方法。本发明利用HAC聚类算法不需要参数的特性,减少需要预先设置的参数,降低噪声的影响,并且提出根据聚类中样本稀疏度和样本数量比例分配每个聚类合成样本数量的方案,能够自适应分配每个聚类需要合成新样本的数量,解决了现有技术中合成样本依赖信息不足的问题。

    一种基于判别联合概率的域适配方法及系统

    公开(公告)号:CN111626376A

    公开(公告)日:2020-09-04

    申请号:CN202010515089.0

    申请日:2020-06-08

    Abstract: 本发明实施例提供的基于判别联合概率的域适配方法及系统,包括获取历史流量数据集;根据历史流量数据集,构建带标签的源域数据集和带标签的目标域数据集;根据带标签的源域数据集和带标签的目标域数据集,计算源域和目标域之间的联合概率差异;根据联合概率差异获取最小化联合概率差异;基于最小化联合概率差异,将带标签的源域数据集向带标签的目标域数据集进行域适配。本发明实施例提供的域适配方法及系统,通过直接计算最小化联合概率差异,度量边际分布和条件分布的差异,构造了对实质分布差异有效且鲁棒的特征表示,提高了域的可转移性和类的可识别性。

    一种文本标签分类方法及系统

    公开(公告)号:CN111782805A

    公开(公告)日:2020-10-16

    申请号:CN202010549098.1

    申请日:2020-06-16

    Abstract: 本发明实施例提供一种文本标签分类方法及系统。该方法包括:获取待分类文本集;将待分类文本集输入至文本标签分类模型,得到文本标签分类模型输出的文本标签分类结果;文本标签分类模型是由文本样本集,基于注意力机制对卷积神经网络模型进行评估,并结合主损失函数与双目标辅助损失函数对卷积神经网络模型进行优化得到的。本发明实施例通过在文本标签分类过程中,使用主损失函数和双目标辅助损失函数进行联合优化,将实体关系类别的类内聚合程度与类间远离程度作为奖励项添加到梯度计算中,使得实体关系类别在度量空间中更加分散,类别内更加紧密,并且实现收敛模型迁移到少样本类别中,在信息不足的情况下更加快速地对少样本类别进行空间划分。

Patent Agency Ranking