一种基于不平衡集成二分类的磁盘故障预测方法

    公开(公告)号:CN112465153A

    公开(公告)日:2021-03-09

    申请号:CN202011510541.0

    申请日:2020-12-18

    Abstract: 本发明公开了一种基于不平衡集成二分类的磁盘故障预测方法,包括:对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集;将磁盘原始数据集和平衡数据集输入RF算法进行机器学习,分别训练出偏向多数类的原始模型和局部域加强和削弱模型,集成两种模型获得偏向外围边界的混合模型;根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。本发明可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题,提高基于机器学习的磁盘故障预测能力。

    一种基于边缘样本密度度量的最近邻异常检测方法

    公开(公告)号:CN109460791A

    公开(公告)日:2019-03-12

    申请号:CN201811351192.5

    申请日:2018-11-14

    Abstract: 本发明实施例提出了一种基于边缘样本密度度量的最近邻异常检测方法,包括:多次随机采样获得正常样本的多个子训练集,结合欧氏距离计算子集中各点距其最近点的距离,以该距离为半径构建区域,将不属于任何区域的测试点作为全局异常;对非全局异常的测试点,找到其最近训练点及该训练点的最近训练点,将两点所在区域半径的比值作为该测试点异常的全局度量值;将测试点到其最近训练点区域边缘的最近距离与该区域半径的比值作为该点异常的局部度量值,结合两次度量值得到测试点的隔离分数,将多个子集中隔离分数的平均值作为异常分数。本发明实施例提供的技术方案,充分考虑了边缘样本的分布特征,能有效解决边缘样本邻近区域内局部异常检测问题。

    一种基于对数区间隔离的电力调度数据异常检测方法

    公开(公告)号:CN112181706B

    公开(公告)日:2023-09-22

    申请号:CN202011148000.8

    申请日:2020-10-23

    Abstract: 本发明实施例提出了一种基于对数区间隔离的电力调度数据异常检测方法,包括:通过Bagging技术生成大量训练数据集的子集;计算每个子集空间下每个子样本对于该空间的马氏距离,根据样本马氏距离对子集空间中每个样本进行对数区间隔离;根据区间内样本的数据分布对样本进行二叉划分,在左右子树节点的子集上重复上面的过程,直至达到终止条件;构建多个对数区间隔离子树,并将其组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;通过构建的对数区间隔离森林异常检测器判断电力数据的异常情况,提高数据异常检测准确率。

    一种基于对数区间隔离的电力调度数据异常检测方法

    公开(公告)号:CN112181706A

    公开(公告)日:2021-01-05

    申请号:CN202011148000.8

    申请日:2020-10-23

    Abstract: 本发明实施例提出了一种基于对数区间隔离的电力调度数据异常检测方法,包括:通过Bagging技术生成大量训练数据集的子集;计算每个子集空间下每个子样本对于该空间的马氏距离,根据样本马氏距离对子集空间中每个样本进行对数区间隔离;根据区间内样本的数据分布对样本进行二叉划分,在左右子树节点的子集上重复上面的过程,直至达到终止条件;构建多个对数区间隔离子树,并将其组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;通过构建的对数区间隔离森林异常检测器判断电力数据的异常情况,提高数据异常检测准确率。

    一种基于分布概率相似度度量的异常检测方法

    公开(公告)号:CN109508733A

    公开(公告)日:2019-03-22

    申请号:CN201811233705.2

    申请日:2018-10-23

    Abstract: 本发明实施例提出了一种基于分布概率相似度度量的异常检测方法,包括:多次随机采样获得正常样本数据的多个子集,以全二叉树结构保存每个子集的随机隔离过程,根据漂移比例划定回溯的阈值深度;根据测试点落在每棵树的外部叶子节点位置及阈值深度,由其所在叶子节点回溯到阈值深度的祖先节点,提取该节点下所有数据作为度量与测试点相似度的训练数据;以测试点与训练数据集内某点为端点,在各属性维度上分别计算其余数据点出现在此两点之间的概率,结合闵氏距离计算测试点与数据集内所有点的不相似程度,得出该点的异常值。本发明实施例提供的技术方案,可以有效解决训练数据集中无异常数据及局部异常检测问题。

    一种基于邻域分区与隔离重构的磁盘异常检测方法

    公开(公告)号:CN112562771B

    公开(公告)日:2022-07-26

    申请号:CN202011564817.3

    申请日:2020-12-25

    Abstract: 本发明实施例提出了一种基于邻域分区与隔离重构的磁盘异常检测方法,包括:收集磁盘SMART信息并筛选出有效的磁盘特征属性组成数据集,对其进行指数平滑处理得到磁盘训练集;多次随机采样训练集获得多个子训练集,在子集中以各点距其最近点的距离为半径构建磁盘特征隔离区域,将不属于任何区域的测试点作为全局异常;对于非全局异常的测试点,将其连续两个近邻点所在区域半径比作为该测试点在此区域的前异常值;包含测试点后重新构建区域,将测试点所处区域重构前后的半径比作为该测试点在此区域的后异常值;结合测试点所处所有区域的前后异常值得到异常分数,本发明实施例提供的技术方案,能有效提高异常磁盘召回率。

    一种基于邻域分区与隔离重构的磁盘异常检测方法

    公开(公告)号:CN112562771A

    公开(公告)日:2021-03-26

    申请号:CN202011564817.3

    申请日:2020-12-25

    Abstract: 本发明实施例提出了一种基于邻域分区与隔离重构的磁盘异常检测方法,包括:收集磁盘SMART信息并筛选出有效的磁盘特征属性组成数据集,对其进行指数平滑处理得到磁盘训练集;多次随机采样训练集获得多个子训练集,在子集中以各点距其最近点的距离为半径构建磁盘特征隔离区域,将不属于任何区域的测试点作为全局异常;对于非全局异常的测试点,将其连续两个近邻点所在区域半径比作为该测试点在此区域的前异常值;包含测试点后重新构建区域,将测试点所处区域重构前后的半径比作为该测试点在此区域的后异常值;结合测试点所处所有区域的前后异常值得到异常分数,本发明实施例提供的技术方案,能有效提高异常磁盘召回率。

    一种基于数据分区混合采样的不平衡集成分类方法

    公开(公告)号:CN111091201A

    公开(公告)日:2020-05-01

    申请号:CN201911339988.3

    申请日:2019-12-23

    Abstract: 本发明实施例提出了一种基于数据分区混合采样的不平衡集成分类方法,包括:根据少数类邻域中的多数类占比将样本空间划分为四个区域:多数类安全区、少数类安全区、边界区、少数类噪声区,根据每个少数类邻域的多数类占比与其总和的比值生成权值,据此确定每个少数类邻域的合成数目,以随机线性插值方式对边界区少数类进行过采样;对多数类安全区采用随机欠采样,剔除少数类噪声区样本但保留少数类安全区样本,生成平衡数据集;构建三种集成学习模型:偏向多数类的原始模型、局部域加强和削弱模型、偏向外围边界的混合模型,根据放入原始数据集的测试点近邻的不平衡程度,自适应地选择相应的模型。

Patent Agency Ranking