基于Spark框架的分布式概要数据结构的构建方法及查询方法
摘要:
本发明提供一种基于Spark框架的分布式概要数据结构的构建方法及查询方法,以Spark平台为基础,利用q-digest结构获得数据区间分布情况,BloomFilter获取组员存在信息,HyperLogLogPlus记录数据基数信息,实现高吞吐低延迟的处理能力,且能够快速响应查询要求,有效适应Spark分布式计算环境,返回误差可控的近似计算结果。本发明还提供一种基于Spark框架的分布式概要数据结构的构建及查询系统。
0/0