一种基于Spark的支持差分隐私的聚类方法
摘要:
本发明公开了一种基于Spark的支持差分隐私的聚类方法,该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄漏问题,同时减少计算过程中对数据实施的扰动。本发明能够处理大规模数据集并满足海量数据聚类的需求。相比于传统算法,该算法具有更好的可扩展性和分布式计算能力。在聚类过程中,该算法采取指数机制和Laplace机制相结合的方法,从而有效降低隐私预算开销,进而缓解海量数据聚类过程中隐私性和可用性之间的矛盾问题。
0/0