一种对海量数据新增变化快速识别的方法

    公开(公告)号:CN117235085A

    公开(公告)日:2023-12-15

    申请号:CN202311054607.3

    申请日:2023-08-21

    Abstract: 本发明提供一种对海量数据新增变化快速识别的方法,根据预估数据总量、误报率、文件大小得到总桶数;将布隆过滤器文件拆分为至少两个布隆过滤器文件并存储在至少两个服务器上;将需要识别的数据使用哈希算法均衡打散,再通过一致性哈希算法得到分配给字符串的桶号使数据均衡分发到不同的布隆过滤器上;按照桶编号分布式存储数据,输入数据分得桶号后由写布隆做写入操作得到对应的布隆过滤器文件;按照桶编号分布式提取布隆过滤器文件,输入数据分桶后分发的桶号,读布隆开启对应的进程。本发明提出了均衡分桶算法,并结合布隆过滤器、分布式计算和分布式存储技术,实现了分布式布隆过滤器,以满足对海量数据的新增变化进行快速识别的需求。

Patent Agency Ranking