发明公开
- 专利标题: 一种基于Spark的支持差分隐私的聚类方法
-
申请号: CN202310898772.0申请日: 2023-07-21
-
公开(公告)号: CN117034057A公开(公告)日: 2023-11-10
- 发明人: 彭长根 , 石江南 , 谭伟杰
- 申请人: 贵州大学
- 申请人地址: 贵州省贵阳市花溪区
- 专利权人: 贵州大学
- 当前专利权人: 贵州大学
- 当前专利权人地址: 贵州省贵阳市花溪区
- 代理机构: 上海天知澜知识产权代理有限公司
- 代理商 李余江
- 主分类号: G06F18/2321
- IPC分类号: G06F18/2321 ; G06F18/21 ; G06F9/46 ; G06F21/62
摘要:
本发明公开了一种基于Spark的支持差分隐私的聚类方法,该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄漏问题,同时减少计算过程中对数据实施的扰动。本发明能够处理大规模数据集并满足海量数据聚类的需求。相比于传统算法,该算法具有更好的可扩展性和分布式计算能力。在聚类过程中,该算法采取指数机制和Laplace机制相结合的方法,从而有效降低隐私预算开销,进而缓解海量数据聚类过程中隐私性和可用性之间的矛盾问题。