一种基于延迟的Spark任务资源交错的调度策略
摘要:
本发明公开了一种基于延迟的Spark任务资源交错的调度策略,首先,考虑到最长完成时间的Stage会影响整个流水线作业的完成,按照历史数据中任务完成时间长短交错执行此阶段,来达到交错利用系统资源的目的。之后,将执行任务划分为CPU密集型和非CPU密集型(包括网络I/O和磁盘I/O)两个阶段,当非CPU密集型阶段任务进行数据获取时,将与其并行的任务在适当时间进行调度,来达到避免资源争用,减少作业完成时间的目的。最后,在Spark 2.4.0上实现了RPTS,并进行了大量的实验来评估性能。本发明以流水线的方式调度并行任务,提高了集群的资源利用率,进而最小化作业执行时间。
0/0