一种基于分布概率相似度度量的异常检测方法

    公开(公告)号:CN109508733A

    公开(公告)日:2019-03-22

    申请号:CN201811233705.2

    申请日:2018-10-23

    IPC分类号: G06K9/62 G06F11/07

    摘要: 本发明实施例提出了一种基于分布概率相似度度量的异常检测方法,包括:多次随机采样获得正常样本数据的多个子集,以全二叉树结构保存每个子集的随机隔离过程,根据漂移比例划定回溯的阈值深度;根据测试点落在每棵树的外部叶子节点位置及阈值深度,由其所在叶子节点回溯到阈值深度的祖先节点,提取该节点下所有数据作为度量与测试点相似度的训练数据;以测试点与训练数据集内某点为端点,在各属性维度上分别计算其余数据点出现在此两点之间的概率,结合闵氏距离计算测试点与数据集内所有点的不相似程度,得出该点的异常值。本发明实施例提供的技术方案,可以有效解决训练数据集中无异常数据及局部异常检测问题。

    一种基于自适应平衡集成与动态分层决策的多分类方法

    公开(公告)号:CN109359704A

    公开(公告)日:2019-02-19

    申请号:CN201811599644.1

    申请日:2018-12-26

    IPC分类号: G06K9/62

    摘要: 本发明实施例提出了一种基于自适应平衡集成与动态分层决策的多分类方法,包括:根据一对多分解策略将原始数据集转化为多个二类数据集,以每个二类数据集中多数类样本与少数类样本数目分别作为参数区间上下限,平均每类准确率为评分标准,通过网格搜索法获得各子集采样数;据此综合过采样与欠采样技术平衡二类数据集以建立多个二分类子模型,通过平均法集成子模型获得二分类模型;根据所有二分类模型输出结果获取测试样本在一对多框架下决策空间位置信息,据此分别制定针对空白区、交叉区、正常区域的类别判定策略以确定样本最终类别。本发明实施例提供的技术方案,可提高一对多框架下分类模型对各类别的整体识别率。

    一种基于边缘样本密度度量的最近邻异常检测方法

    公开(公告)号:CN109460791A

    公开(公告)日:2019-03-12

    申请号:CN201811351192.5

    申请日:2018-11-14

    IPC分类号: G06K9/62

    摘要: 本发明实施例提出了一种基于边缘样本密度度量的最近邻异常检测方法,包括:多次随机采样获得正常样本的多个子训练集,结合欧氏距离计算子集中各点距其最近点的距离,以该距离为半径构建区域,将不属于任何区域的测试点作为全局异常;对非全局异常的测试点,找到其最近训练点及该训练点的最近训练点,将两点所在区域半径的比值作为该测试点异常的全局度量值;将测试点到其最近训练点区域边缘的最近距离与该区域半径的比值作为该点异常的局部度量值,结合两次度量值得到测试点的隔离分数,将多个子集中隔离分数的平均值作为异常分数。本发明实施例提供的技术方案,充分考虑了边缘样本的分布特征,能有效解决边缘样本邻近区域内局部异常检测问题。

    一种基于模型自适应选择的多分类模型融合方法

    公开(公告)号:CN109086825A

    公开(公告)日:2018-12-25

    申请号:CN201810876135.2

    申请日:2018-08-03

    IPC分类号: G06K9/62

    摘要: 本发明实施例提出了一种基于模型自适应选择的多分类模型融合方法,包括:分别计算基分类模型对每一类样本的分类准确率,对结果输出为概率值的分类模型,取其分类结果的Top-N分类标签集;根据各基分类模型对每类样本的分类准确率最大值,设置各类样本的动态准确率阈值,并对各数据集样本设置分类结果融合标记;根据样本的融合标记,对每一个样本自适应选择参与融合的基分类模型,结合基分类模型的Top-N分类标签集,实现基分类模型融合。本发明实施例提供的技术方案,可以将结果输出形式分别为概率值和样本所属类标签的两个基分类模型进行有效融合,能针对每一个数据样本实现基分类模型的自适应选择,提高融合之后分类模型的准确率。

    一种基于数据分区混合采样的不平衡集成分类方法

    公开(公告)号:CN111091201A

    公开(公告)日:2020-05-01

    申请号:CN201911339988.3

    申请日:2019-12-23

    IPC分类号: G06N20/20 G06K9/62

    摘要: 本发明实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,包括:根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。

    一种基于特征选择的EMD-GRU短期电力负荷预测方法

    公开(公告)号:CN109886498A

    公开(公告)日:2019-06-14

    申请号:CN201910153816.0

    申请日:2019-03-01

    摘要: 本发明实例提供了一种基于特征选择的EMD-GRU短期电力负荷预测方法,包括:使用经验模态分解方法(EMD)将原始负荷序列分解成多个时序分量,并将所有的时序分量作为初始特征集合,由其构成预测模型的潜在输入变量;通过皮尔逊相关系数法对初始特征进行相关性分析,选出其中与原始负荷序列相关性较大的时序分量作为预测模型的输入特征;将被选择的时序分量结合原始负荷序列一起输入到门控循环单元网络(GRU)预测模型中,执行最终的负荷预测。根据本发明实施例提供的技术方案,可以提高短期电力负荷预测的准确率。

    一种基于聚类的分层最近邻欠采样方法

    公开(公告)号:CN109522936A

    公开(公告)日:2019-03-26

    申请号:CN201811233719.4

    申请日:2018-10-23

    IPC分类号: G06K9/62

    摘要: 本发明实施例提出了一种基于聚类的分层最近邻欠采样方法,包括:利用Kmeans聚类算法得到多数类样本的肘图,根据簇数与各个簇畸变程度之和的关系选择最优聚类的簇数k;使用Kmeans聚类算法将多数类样本聚为k簇,从而得到各个簇的中心点及簇内样本点个数;根据每个簇内样本点的数量,进行分层采样,选取每个簇中心点的最近邻与少数类样本合并作为采样结果。本发明实施例提供的技术方案,充分利用了多数类样本的分布特征,较好地保留了多数类样本的有用信息,且能有效提高后续分类算法的分类效果。

    一种基于特征选择的EMD-GRU短期电力负荷预测方法

    公开(公告)号:CN109886498B

    公开(公告)日:2022-03-22

    申请号:CN201910153816.0

    申请日:2019-03-01

    摘要: 本发明实例提供了一种基于特征选择的EMD‑GRU短期电力负荷预测方法,包括:使用经验模态分解方法(EMD)将原始负荷序列分解成多个时序分量,并将所有的时序分量作为初始特征集合,由其构成预测模型的潜在输入变量;通过皮尔逊相关系数法对初始特征进行相关性分析,选出其中与原始负荷序列相关性较大的时序分量作为预测模型的输入特征;将被选择的时序分量结合原始负荷序列一起输入到门控循环单元网络(GRU)预测模型中,执行最终的负荷预测。根据本发明实施例提供的技术方案,可以提高短期电力负荷预测的准确率。

    一种基于不平衡集成二分类的磁盘故障预测方法

    公开(公告)号:CN112465153A

    公开(公告)日:2021-03-09

    申请号:CN202011510541.0

    申请日:2020-12-18

    IPC分类号: G06N20/20 G06K9/62

    摘要: 本发明公开了一种基于不平衡集成二分类的磁盘故障预测方法,包括:对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集;将磁盘原始数据集和平衡数据集输入RF算法进行机器学习,分别训练出偏向多数类的原始模型和局部域加强和削弱模型,集成两种模型获得偏向外围边界的混合模型;根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。本发明可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题,提高基于机器学习的磁盘故障预测能力。