Invention Publication
- Patent Title: 一种基于数据倾斜模型的动态分区方法及系统
-
Application No.: CN202311727021.9Application Date: 2023-12-15
-
Publication No.: CN117931939APublication Date: 2024-04-26
- Inventor: 庄冀 , 庄新妍 , 楚绪 , 刘秀云 , 董帅
- Applicant: 华能伊敏煤电有限责任公司
- Applicant Address: 内蒙古自治区呼伦贝尔市鄂温克族自治旗伊敏河镇
- Assignee: 华能伊敏煤电有限责任公司
- Current Assignee: 华能伊敏煤电有限责任公司
- Current Assignee Address: 内蒙古自治区呼伦贝尔市鄂温克族自治旗伊敏河镇
- Agency: 南京禹为知识产权代理事务所
- Agent 周局
- Main IPC: G06F16/27
- IPC: G06F16/27 ; G06F16/22 ; G06F9/50

Abstract:
本发明公开了一种基于数据倾斜模型的动态分区方法及系统,涉及大数据技术领域,包括收集数据并对数据做预处理,建立数据倾斜评估模型对预处理的数据进行预测,根据数据特征预测作业处理过程中的数据倾斜程度,确定分区优化策略,设计评估实验对动态分区与静态分区作比较,并对动态分区进行重复优化。本发明提出基于数据倾斜模型的动态分区算法,该算法可以根据所处理数据的倾斜程度,选择适合的分区策略,使用基于Spark动态分区的三种优化方法的算法,来处理数据性能的对比实验,设计并且验证上述动态分区方案的普适性和高效性,能够使得整个计算集群的负载均衡,充分利用集群的计算资源,更高效地完成数据的处理和计算。
Information query