- 专利标题: 一种Spark集群系统的在线优化分区的任务调度方法及装置
-
申请号: CN201810486385.5申请日: 2018-05-18
-
公开(公告)号: CN108762921B公开(公告)日: 2019-07-12
- 发明人: 田文洪 , 叶宇飞 , 王金 , 许凌霄 , 匡平
- 申请人: 电子科技大学
- 申请人地址: 四川省成都市高新区(西区)西源大道2006号
- 专利权人: 电子科技大学
- 当前专利权人: 电子科技大学
- 当前专利权人地址: 四川省成都市高新区(西区)西源大道2006号
- 代理机构: 电子科技大学专利中心
- 代理商 邹裕蓉
- 主分类号: G06F9/50
- IPC分类号: G06F9/50 ; G06F9/48
摘要:
本发明公开了一种Spark集群系统的在线优化分区的任务调度方法,属于在线集群资源调度技术领域。本发明所述方法包括步骤:统计上游Stage输出数据量大小、参与作业执行的总CPU核数、内存总量以及用于拉取数据的内存比例;根据输出数据量与用于拉取数据的内存容量的大小关系,计算任务执行的轮数,并设置优化的分区数量;监测计算节点的平均CPU利用率、内存利用率,对各计算节点的资源利用水平进行评估;降序排序所有节点的资源利用水平,优先调度任务给资源利用水平最高的节点执行;重复上述步骤直到所有任务调度完成。本发明能够自动配置优化的分区数量,提高集群的资源利用率,加快Spark作业的执行速度。
公开/授权文献
- CN108762921A 一种Spark集群系统的在线优化分区的任务调度方法及装置 公开/授权日:2018-11-06