- 专利标题: 基于Spark框架的分布式概要数据结构的构建方法及查询方法
-
申请号: CN201810113980.4申请日: 2018-02-05
-
公开(公告)号: CN108388603A公开(公告)日: 2018-08-10
- 发明人: 吴广君 , 党向磊 , 王树鹏 , 杨怡欣 , 赵百强
- 申请人: 中国科学院信息工程研究所
- 申请人地址: 北京市海淀区闵庄路甲89号
- 专利权人: 中国科学院信息工程研究所
- 当前专利权人: 中国科学院信息工程研究所
- 当前专利权人地址: 北京市海淀区闵庄路甲89号
- 代理机构: 北京君尚知识产权代理事务所
- 代理商 余长江
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明提供一种基于Spark框架的分布式概要数据结构的构建方法及查询方法,以Spark平台为基础,利用q-digest结构获得数据区间分布情况,BloomFilter获取组员存在信息,HyperLogLogPlus记录数据基数信息,实现高吞吐低延迟的处理能力,且能够快速响应查询要求,有效适应Spark分布式计算环境,返回误差可控的近似计算结果。本发明还提供一种基于Spark框架的分布式概要数据结构的构建及查询系统。
公开/授权文献
- CN108388603B 基于Spark框架的分布式概要数据结构的构建方法及查询方法 公开/授权日:2022-05-17