一种基于数据倾斜模型的动态分区方法及系统
摘要:
本发明公开了一种基于数据倾斜模型的动态分区方法及系统,涉及大数据技术领域,包括收集数据并对数据做预处理,建立数据倾斜评估模型对预处理的数据进行预测,根据数据特征预测作业处理过程中的数据倾斜程度,确定分区优化策略,设计评估实验对动态分区与静态分区作比较,并对动态分区进行重复优化。本发明提出基于数据倾斜模型的动态分区算法,该算法可以根据所处理数据的倾斜程度,选择适合的分区策略,使用基于Spark动态分区的三种优化方法的算法,来处理数据性能的对比实验,设计并且验证上述动态分区方案的普适性和高效性,能够使得整个计算集群的负载均衡,充分利用集群的计算资源,更高效地完成数据的处理和计算。
0/0