一种大数据平台上的电力数据去重方法
Abstract:
本发明涉及一种大数据平台上的电力数据去重方法,本发明重复数据删除使用的总体架构为分布式:分布式的总体架构通过把去重过程分布到多个节点上执行,从而避免系统瓶颈和单点故障。本发明对数据进行判重之前,会对数据内容本身进行哈希计算,将不定长度的文件内容转化为固定长度的指纹可以大大地提高判重的效率。哈希计算采用两种类型的算法:MD5算法,SHA-1算法。使用两种函数进行计算,这减少了些函数都存在着数据冲突的可能性,即不同的数据内容可能对应同一个数据哈希值。
Patent Agency Ranking
0/0