发明公开
- 专利标题: 一种基于数据倾斜模型的动态分区方法及系统
-
申请号: CN202311727021.9申请日: 2023-12-15
-
公开(公告)号: CN117931939A公开(公告)日: 2024-04-26
- 发明人: 庄冀 , 庄新妍 , 楚绪 , 刘秀云 , 董帅
- 申请人: 华能伊敏煤电有限责任公司
- 申请人地址: 内蒙古自治区呼伦贝尔市鄂温克族自治旗伊敏河镇
- 专利权人: 华能伊敏煤电有限责任公司
- 当前专利权人: 华能伊敏煤电有限责任公司
- 当前专利权人地址: 内蒙古自治区呼伦贝尔市鄂温克族自治旗伊敏河镇
- 代理机构: 南京禹为知识产权代理事务所
- 代理商 周局
- 主分类号: G06F16/27
- IPC分类号: G06F16/27 ; G06F16/22 ; G06F9/50
摘要:
本发明公开了一种基于数据倾斜模型的动态分区方法及系统,涉及大数据技术领域,包括收集数据并对数据做预处理,建立数据倾斜评估模型对预处理的数据进行预测,根据数据特征预测作业处理过程中的数据倾斜程度,确定分区优化策略,设计评估实验对动态分区与静态分区作比较,并对动态分区进行重复优化。本发明提出基于数据倾斜模型的动态分区算法,该算法可以根据所处理数据的倾斜程度,选择适合的分区策略,使用基于Spark动态分区的三种优化方法的算法,来处理数据性能的对比实验,设计并且验证上述动态分区方案的普适性和高效性,能够使得整个计算集群的负载均衡,充分利用集群的计算资源,更高效地完成数据的处理和计算。