一种适用于计算能力异构集群的分布式作业调度方法
摘要:
本发明公开了一种适用于计算能力异构集群的分布式作业调度方法,包括五个步骤:第一,节点资源的自动化发现;集群中的每个节点将资源信息以组播报文的方式发送到网络中,调度器接收组播报文,自动发现集群节点;第二,基于FIFO和资源利用最大化的作业调度机制。第三,基于数据集的动态再调度机制。作业管理器动态调整各个任务的数据集;第四,延迟调度机制。将作业的部分任务部署到所有节点,剩下的任务提交到延迟队列等待调度。第五,使用冗余互备机制。调度器为每个任务部署备份任务,保证在任务故障或者离线后,备份任务依然能够提供计算结果。本发明提高了集群的分布式处理能力,提升了系统的资源利用率,确保了作业处理的可靠性。
0/0