-
公开(公告)号:CN104809210A
公开(公告)日:2015-07-29
申请号:CN201510209691.0
申请日:2015-04-28
Applicant: 东南大学
IPC: G06F17/30
CPC classification number: G06F17/3053
Abstract: 本发明公开了一种基于spark分布式计算框架下海量数据的top-k查询优化方法,将海量数据集预先进行数据分割,主要采用的是类似网格的数据分割方法。将原始数据集划分为不同的子数据集,然后根据用户对数据对象的每个属性赋予的权重以及查询k值,选取少量合适的子数据集代替整个数据集进行查询。实验结果证明本文提出的方法查询速度较快,而且具有良好的可扩展性。与传统top-k查询方法以及基于角度和距离数据分割方法进行对比,提高了查询速度,能够在短时间内及时反馈给用户需要查询的信息。