一种面向流式大数据的基数估计方法
摘要:
本发明公开了一种面向流式大数据的基数估计方法,所述面向流式大数据的基数估计方法针对流式大数据,通过降低计算精度提高基数估计效率;对HyperLogLog Counting算法所需的中间统计信息进行分区计算,选择高效的哈希算法和最优的分桶个数,通过改进的分桶方法将哈希过的数据较为均匀的映射到m个不同的桶号中,并进行增量维护,再进行合并得到最终的中间统计信息,从而计算基数估计值。本发明有效的利用了历史数据,避免了重复计算,极大的提高了基数估计的效率;实现了高精度基数估计,相比传统算法给出了高效的分桶方法,提高了基数估计的精度;算法空间复杂度很低,降低了计算资源消耗。
0/0