-
公开(公告)号:CN115757015A
公开(公告)日:2023-03-07
申请号:CN202211329781.X
申请日:2022-10-27
Applicant: 清华大学
Abstract: 本申请涉及一种并行程序的失效检测方法、装置、设备、介质和程序产品。包括:根据高性能计算HPC系统各计算节点的健康状态信息以及目标程序与目标程序所占用的计算节点之间的对应关系,确定目标程序所占用的计算节点的故障信息;根据集成在目标程序上的分布式状态监控系统,获取目标程序执行行为的状态信息,生成目标程序运行过程中的程序执行状态报告;根据目标程序运行过程中的中间运行信息,确定表征目标程序运行过程中是否发生静默数据损坏错误以及发生静默数据损坏错误的位置信息的目标检测信息;根据故障信息、程序执行状态报告和目标检测信息,对目标程序运行失效的原因进行分析,获取分析结果,采用本方法能够对程序失效原因进行全面检测。