发明公开
CN106709001A 一种面向流式大数据的基数估计方法
无效 - 驳回
- 专利标题: 一种面向流式大数据的基数估计方法
- 专利标题(英): Cardinality estimation method aiming at streaming big data
-
申请号: CN201611201376.4申请日: 2016-12-22
-
公开(公告)号: CN106709001A公开(公告)日: 2017-05-24
- 发明人: 赵兴文 , 王浩 , 李晖 , 朱辉
- 申请人: 西安电子科技大学
- 申请人地址: 陕西省西安市太白南路2号西安电子科技大学
- 专利权人: 西安电子科技大学
- 当前专利权人: 西安电子科技大学
- 当前专利权人地址: 陕西省西安市太白南路2号西安电子科技大学
- 代理机构: 西安长和专利代理有限公司
- 代理商 黄伟洪
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种面向流式大数据的基数估计方法,所述面向流式大数据的基数估计方法针对流式大数据,通过降低计算精度提高基数估计效率;对HyperLogLog Counting算法所需的中间统计信息进行分区计算,选择高效的哈希算法和最优的分桶个数,通过改进的分桶方法将哈希过的数据较为均匀的映射到m个不同的桶号中,并进行增量维护,再进行合并得到最终的中间统计信息,从而计算基数估计值。本发明有效的利用了历史数据,避免了重复计算,极大的提高了基数估计的效率;实现了高精度基数估计,相比传统算法给出了高效的分桶方法,提高了基数估计的精度;算法空间复杂度很低,降低了计算资源消耗。