解决大规模故障预测问题的方法、系统、设备及储存介质

    公开(公告)号:CN116451792B

    公开(公告)日:2023-08-29

    申请号:CN202310699448.6

    申请日:2023-06-14

    摘要: 本发明公开了一种解决大规模故障预测问题的方法、系统、设备及储存介质,所述方法包括:搜索符合预设条件的时序事件作为时序根节点事件;搜索所有可拼接所述时序根节点事件的时序事件的排列组合集合;由所述时序根节点分别拼接所述时序事件,得到候选线性事件集;对所述候选线性事件集进行评估,将不满足预设条件的所述候选线性事件集进行剪枝,将剪枝后的候选线性事件集进行进一步拼接、评估;以及,对所述线性事件集在数据集上的表现进行评估,取表现分数最高的线性事件集作为本轮产生的新线性事件集;当产生新线性事件集后,将现有线性事件集匹配的服务器地址列为已覆盖服务器地址。通过本公开的处理方案,具有极强的可解释性和可修改性。

    基于交叉心跳监测的自动备援方法、系统、设备及介质

    公开(公告)号:CN116436768A

    公开(公告)日:2023-07-14

    申请号:CN202310699417.0

    申请日:2023-06-14

    摘要: 本发明公开了一种基于交叉心跳监测的自动备援方法、系统、设备及介质,所述方法包括:通过心跳监测功能监控各个调度服务器的应用服务状态;以预设的频率在所述调度服务器间通过报文传递所述应用服务状态信息;其中,当预设的时间内未收到第一调度服务器发送的报文时,判断所述第一调度服务器中的数据库状态更新和注册中心服务是否异常,并判断是否触发失效备援;当进行失效备援时,将所述第一调度服务器置为不可用状态,由第二调度服务器接管运行在所述第一调度服务器上的应用服务。通过本公开的处理方案,保证了平台的高可用性和业务的连续性。

    基于拓扑依赖的作业预警方法、设备、介质及程序产品

    公开(公告)号:CN118964003A

    公开(公告)日:2024-11-15

    申请号:CN202410966798.9

    申请日:2024-07-18

    IPC分类号: G06F9/50 G06F11/34 G06F9/48

    摘要: 本发明公开了基于拓扑依赖的作业预警方法、设备、介质及程序产品,包括:首先将作业信息记录在作业依赖表中,并配置作业间的依赖关系;然后利用作业依赖表,生成作业拓扑图;再基于挂起轮询算法,计算得到作业拓扑图中各个作业的作业平均耗时;根据关键路径算法,利用作业拓扑图,生成关键作业路径;再根据关键作业路径上作业的作业平均耗时,生成实际作业时序;最后,利用实际作业时序和关键作业路径对应的关键路径时序进行比对,将耗时异常的作业作为待预警作业,根据待预警作业的上下游缓冲时间,生成路径预警信息。本发明能够基于拓扑依赖实现对作业的可视化管理与预警,保证了作业预警的高效性与实时性。

    基于交叉心跳监测的自动备援方法、系统、设备及介质

    公开(公告)号:CN116436768B

    公开(公告)日:2023-08-15

    申请号:CN202310699417.0

    申请日:2023-06-14

    摘要: 本发明公开了一种基于交叉心跳监测的自动备援方法、系统、设备及介质,所述方法包括:通过心跳监测功能监控各个调度服务器的应用服务状态;以预设的频率在所述调度服务器间通过报文传递所述应用服务状态信息;其中,当预设的时间内未收到第一调度服务器发送的报文时,判断所述第一调度服务器中的数据库状态更新和注册中心服务是否异常,并判断是否触发失效备援;当进行失效备援时,将所述第一调度服务器置为不可用状态,由第二调度服务器接管运行在所述第一调度服务器上的应用服务。通过本公开的处理方案,保证了平台的高可用性和业务的连续性。

    解决大规模故障预测问题的方法、系统、设备及储存介质

    公开(公告)号:CN116451792A

    公开(公告)日:2023-07-18

    申请号:CN202310699448.6

    申请日:2023-06-14

    摘要: 本发明公开了一种解决大规模故障预测问题的方法、系统、设备及储存介质,所述方法包括:搜索符合预设条件的时序事件作为时序根节点事件;搜索所有可拼接所述时序根节点事件的时序事件的排列组合集合;由所述时序根节点分别拼接所述时序事件,得到候选线性事件集;对所述候选线性事件集进行评估,将不满足预设条件的所述候选线性事件集进行剪枝,将剪枝后的候选线性事件集进行进一步拼接、评估;以及,对所述线性事件集在数据集上的表现进行评估,取表现分数最高的线性事件集作为本轮产生的新线性事件集;当产生新线性事件集后,将现有线性事件集匹配的服务器地址列为已覆盖服务器地址。通过本公开的处理方案,具有极强的可解释性和可修改性。