发明公开
- 专利标题: 一种基于延迟的Spark任务资源交错的调度策略
-
申请号: CN202410870802.1申请日: 2024-07-01
-
公开(公告)号: CN118860592A公开(公告)日: 2024-10-29
- 发明人: 张琰浩 , 何欣 , 王聪洋 , 于俊洋 , 王丹 , 翟瑞 , 宋亚林 , 殷向
- 申请人: 河南大学
- 申请人地址: 河南省开封市顺河区明伦街85号
- 专利权人: 河南大学
- 当前专利权人: 河南大学
- 当前专利权人地址: 河南省开封市顺河区明伦街85号
- 代理机构: 郑州大通专利商标代理有限公司
- 代理商 张立强
- 主分类号: G06F9/48
- IPC分类号: G06F9/48 ; G06F9/50 ; H04L67/1008 ; H04L67/101 ; H04L67/61 ; G06F3/06
摘要:
本发明公开了一种基于延迟的Spark任务资源交错的调度策略,首先,考虑到最长完成时间的Stage会影响整个流水线作业的完成,按照历史数据中任务完成时间长短交错执行此阶段,来达到交错利用系统资源的目的。之后,将执行任务划分为CPU密集型和非CPU密集型(包括网络I/O和磁盘I/O)两个阶段,当非CPU密集型阶段任务进行数据获取时,将与其并行的任务在适当时间进行调度,来达到避免资源争用,减少作业完成时间的目的。最后,在Spark 2.4.0上实现了RPTS,并进行了大量的实验来评估性能。本发明以流水线的方式调度并行任务,提高了集群的资源利用率,进而最小化作业执行时间。