处理至少一个分布式集群中的故障的方法、设备和系统

    公开(公告)号:CN105991325B

    公开(公告)日:2019-06-21

    申请号:CN201510068053.1

    申请日:2015-02-10

    发明人: 袁健清 倪绍基

    IPC分类号: H04L12/24 H04L1/22

    摘要: 本发明实施例提供一种处理至少一个分布式集群中的故障的方法、设备和系统,至少一个分布式集群包括第一分布式集群,第一分布式集群中包括第一Master节点和第一Slave节点,第一参考节点,以及作为第一Master节点的备份的第一备用节点,第一备用节点接收第一参考节点发送的包括用于指示第一参考节点与第一Master节点处于失联状态的第一指示信息的心跳消息;第一备用节点根据第一指示信息,确定第一参考节点与第一Master节点处于失联状态;第一备用节点在检测到第一Master节点向第一备用节点发送的心跳消息中断的情况下,确定第一备用节点与第一Master节点也处于失联状态;第一备用节点确定该第一Master节点发生故障。在本发明实施例中,能够有效缩短故障检测时间。

    网络容灾处理方法、装置及通信系统

    公开(公告)号:CN109462492A

    公开(公告)日:2019-03-12

    申请号:CN201710797312.3

    申请日:2017-09-06

    发明人: 王玮 周衡

    IPC分类号: H04L12/24

    CPC分类号: H04L41/0668

    摘要: 本发明实施例提供一种网络容灾处理方法、装置及通信系统,在基带单元下设置远端射频单元组,该远端射频单元组中包括至少两个互为备份的远端射频单元,各远端射频单元分别与基带单元连接,且当前与基带单元连接处于工作状态的远端射频单元为主远端射频单元,处于待工作状态的远端射频单元为备用远端射频单元;工作时检测当前连接的远端射频单元组中当前的主远端射频单元出现工作故障时,向管理网元发送包含该工作故障的第一故障消息通知;管理网元根据该第一故障消息通知向基带单元发送射频单元切换指令,以将该远端射频单元组中备用远端射频单元切换为主远端射频单元,从而避免网络服务的中断,保证业务的正常进行。

    时间触发以太网仿真系统

    公开(公告)号:CN109150559A

    公开(公告)日:2019-01-04

    申请号:CN201710454712.4

    申请日:2017-06-15

    IPC分类号: H04L12/24 H04L12/26

    摘要: 本发明涉及时间触发以太网仿真系统,该系统包括网络规划单元、网络调度单元、通信仿真单元及时间同步仿真单元;所述网络规划单元包括用于生成网络拓扑文件的网络拓扑规划模块、用于配置网络流量参数及每条流量传输路径的网络流量配置模块;所述网络调度单元用于根据网络拓扑信息及流量信息,生成满足设定网络约束条件下的网路调度表;所述通信仿真单元用于实现不同类型业务的通信仿真;所述时间同步仿真单元用于实现消息固化、压缩、时钟同步服务、集群监测及状态机时钟同步功能。本发明的系统较之仅对时间同步功能进行仿真的现有技术,本发明的仿真系统更加全面深入。

    高性能计算集群系统的可靠性评估方法及评估装置

    公开(公告)号:CN108989082A

    公开(公告)日:2018-12-11

    申请号:CN201810563134.2

    申请日:2018-06-04

    IPC分类号: H04L12/24 G06F11/20

    摘要: 本发明公开了一种高性能计算集群系统的可靠性评估方法及评估装置,该可靠性评估方法包括:生成高性能计算集群系统的各个子系统的状态转移图,其中,多个子系统的状态转移图互不相同;遍历各个子系统的状态转移图以计算高性能计算集群系统的可靠度。本发明的上述技术方案,通过模块化来控制系统风险,独立评估高性能计算集群系统的各子系统风险,通过状态转移图形成的风险控制链条能够实现全局风险的准确判断。

    一种云资源混合调度方法及装置

    公开(公告)号:CN108965152A

    公开(公告)日:2018-12-07

    申请号:CN201710356171.1

    申请日:2017-05-19

    摘要: 本发明公开了一种云资源混合调度方法及装置,此方法包括:实时监控虚拟服务器的运行状态,根据所述运行状态判断所述虚拟服务器处于异常工作状态时,控制至少一业务服务器承载所述虚拟服务器的全部或部分业务。云资源混合调度装置包括:监控模块,用于实时监控虚拟服务器的运行状态;判断模块,用于根据所述运行状态判断所述虚拟服务器处于异常工作状态时;控制模块,用于在所述判断模块判断所述运行状态判断所述虚拟服务器处于异常工作状态时,控制至少一业务服务器承载所述虚拟服务器的全部或部分业务。本发明的调度方案可以灵活地进行流量分配,从而做到更精确的带宽控制,提高DDOS攻击防御能力。

    一种元数据服务的故障恢复方法、服务器、客户端及系统

    公开(公告)号:CN108880906A

    公开(公告)日:2018-11-23

    申请号:CN201810736730.6

    申请日:2018-07-06

    发明人: 程瑶 于鲁宪

    IPC分类号: H04L12/24 H04L29/08

    摘要: 本发明公开了一种元数据服务的故障恢复方法、服务器、客户端及系统,该方法的步骤包括:当与客户端通信的元数据服务发生故障时,通过备用元数据服务获取各客户端预先缓存的inode信息;在inode信息中选取具有预设标记的目标inode信息;分别根据各目标inode信息查找对应的配置数据,并加载至备用元数据服务以代替元数据服务的工作,实现故障恢复。本方法相对降低了故障恢复的时间开销,并且缩短了备用元数据服务无法正常响应数据访问请求的时长,保证了数据存储系统的工作效率以及用户体验。此外,本发明还提供一种服务器、客户端及系统,有益效果同上所述。

    一种分布式文件存储系统主节点管理方法及装置

    公开(公告)号:CN108769199A

    公开(公告)日:2018-11-06

    申请号:CN201810533781.9

    申请日:2018-05-29

    发明人: 刘颖

    摘要: 本发明提供了一种分布式文件存储系统主节点管理方法及装置,所述的方法为:默认选举集群节点中ip地址最小的节点为主mon节点,由主mon节点管理集群其他非主mon节点,当主mon节点发生故障时,主mon节点会漂移到除发生故障的节点外的集群其他节点中ip地址最小的节点。所述的装置包括:主节点选举模块,在首次登录或主节点发生故障后,选举IP地址最小的节点作为主节点;主节点漂移模块,用于向主节点发送数据通讯,判断主节点是否发生故障。能够快速定位并访问主节点,方便客户操作,可用性强,会更效率的满足客户需求。