一种基于机器学习的非平衡数据集的处理方法和装置

    公开(公告)号:CN109635839B

    公开(公告)日:2020-07-14

    申请号:CN201811341167.9

    申请日:2018-11-12

    IPC分类号: G06K9/62

    摘要: 本发明实施例公开了一种基于机器学习的非平衡数据集的处理方法和装置,涉及数据处理的技术领域,能够解决SMOTE算法合成“人造”样本过程中造成的分布边缘化问题。该处理方法包括:一种基于机器学习的非平衡数据集的处理方法,包括:根据包含多个多数类图像样本的第一样本集合和包含多个少数类图像样本的初始的第二样本集合,生成中心样本,其中,所述多数类图像样本和所述少数类图像样本均包含有N维属性,所述中心样本是由多个所述多数类图像样本和多个所述少数类图像样本每个维度的属性的平均值组成,N≥1;在所述中心样本与至少一个所述少数类图像样本之间进行随机线性插值,生成新增少数类样本,得到利用所述新增少数类样本更新后的第二样本集合。

    一种识别网络安全风险的模型建立方法及装置

    公开(公告)号:CN110177122A

    公开(公告)日:2019-08-27

    申请号:CN201910528049.7

    申请日:2019-06-18

    摘要: 本发明的实施例提供一种识别网络安全风险的模型建立方法及装置,涉及人工智能领域,能够得到识别网络安全风险的模型,进一步准确的识别网络安全隐患。该方法包括:获取网络中预定时间段的网络流量的数据集,获取专家为数据样本标注的网络问题类型;在预定时间段中确定第一目标时间段;以第一目标时间段的时序为横坐标,以数据样本为纵坐标,将数据集转换为二维坐标曲线图;将二维坐标曲线图转换为二维图像;以二维图像作为卷积神经网络的输入,获取卷积神经网络的输出结果,并根据输出结果和专家为数据样本标注的网络问题类型训练生成识别网络安全风险的模型。本申请实施例应用于识别网络安全风险的模型的建立。