一种GPU集群监控系统及监控报警发布方法

    公开(公告)号:CN103780660A

    公开(公告)日:2014-05-07

    申请号:CN201210414718.6

    申请日:2012-10-25

    发明人: 葛鑫 王胜春 李进

    IPC分类号: H04L29/08 H04L12/24 H04L12/26

    摘要: 本发明提供了一种GPU集群监控系统及监控报警发布方法,属于信息技术领域。所述GPU集群监控系统包括数据采集模块、分析模块和展现模块;在GPU集群中的每一个计算节点上均安装有所述数据采集模块,所述数据采集模块采集该计算节点的数据信息,所述数据信息为GPU卡的利用率;所述分析模块设置在所述代理节点上,所述分析模块将所述采集模块采集到的数据信息收集到代理节点当中,并对数据信息进行统计分析,生成精简数据表;所述展现模块设置在所述信息发布服务器上,所述展现模块接收分析模块生成的精简数据表,并建立web平台,将精简数据表以图形的形势直观表现出来,让运维人员实时监控。

    一种计算机集群的健康状态检查和修复方法及存储介质

    公开(公告)号:CN112445677A

    公开(公告)日:2021-03-05

    申请号:CN201910833319.5

    申请日:2019-09-04

    IPC分类号: G06F11/30

    摘要: 本发明公开了计算机集群的健康状态检查和修复方法及存储介质,该方法包括:检查所述计算机集群中各服务器的运行状态,确定在线服务器;检查所述在线服务器的磁盘分区,并修复检查出的所述在线服务器的异常磁盘分区;根据预设的配置文件,检查所述在线服务器的各系统服务,并修复检查出的所述在线服务器的异常系统服务;检查所述在线服务器的内存使用状态,并修复检查出的所述在线服务器的异常内存;检查所述在线服务器的软件环境,并修复检查出的所述在线服务器的异常软件环境。本发明在检查出节点服务器的异常时,及时在线修复异常,无需人工干预,节省人工成本的同时,提高了检测修复的效率,经过本发明的计算机集群的健康状态得到显著的提升。

    一种基于高性能计算的存储统计系统及方法

    公开(公告)号:CN104572648B

    公开(公告)日:2018-01-16

    申请号:CN201310473958.8

    申请日:2013-10-11

    发明人: 葛鑫 路曜宗 李进

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种基于高性能计算的存储统计系统及方法,属于信息技术领域。本系统包括路径检索模块、调度模块、存储空间计算模块和信息计算模块;所述路径检索模块在指定存储中进行扫描,搜索深入到目录树的第三层,将第三层的所有文件和目录的绝对路径检索出来,记录到结果文件中;扫描结束后,将结果文件平均分成N份,形成N个子文件;所述调度模块将子文件调度到计算节点上;在各个计算节点上,所述存储空间计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件所占存储空间的大小;在各个计算节点上,所述信息计算模块根据子文件中提供的绝对路径,计算与该绝对路径相对应的文件的详细信息。

    一种计算机集群的健康状态检查和修复方法及存储介质

    公开(公告)号:CN112445677B

    公开(公告)日:2024-06-18

    申请号:CN201910833319.5

    申请日:2019-09-04

    IPC分类号: G06F11/30

    摘要: 本发明公开了计算机集群的健康状态检查和修复方法及存储介质,该方法包括:检查所述计算机集群中各服务器的运行状态,确定在线服务器;检查所述在线服务器的磁盘分区,并修复检查出的所述在线服务器的异常磁盘分区;根据预设的配置文件,检查所述在线服务器的各系统服务,并修复检查出的所述在线服务器的异常系统服务;检查所述在线服务器的内存使用状态,并修复检查出的所述在线服务器的异常内存;检查所述在线服务器的软件环境,并修复检查出的所述在线服务器的异常软件环境。本发明在检查出节点服务器的异常时,及时在线修复异常,无需人工干预,节省人工成本的同时,提高了检测修复的效率,经过本发明的计算机集群的健康状态得到显著的提升。