Invention Publication
- Patent Title: 一种基于Spark的支持差分隐私的聚类方法
-
Application No.: CN202310898772.0Application Date: 2023-07-21
-
Publication No.: CN117034057APublication Date: 2023-11-10
- Inventor: 彭长根 , 石江南 , 谭伟杰
- Applicant: 贵州大学
- Applicant Address: 贵州省贵阳市花溪区
- Assignee: 贵州大学
- Current Assignee: 贵州大学
- Current Assignee Address: 贵州省贵阳市花溪区
- Agency: 上海天知澜知识产权代理有限公司
- Agent 李余江
- Main IPC: G06F18/2321
- IPC: G06F18/2321 ; G06F18/21 ; G06F9/46 ; G06F21/62

Abstract:
本发明公开了一种基于Spark的支持差分隐私的聚类方法,该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄漏问题,同时减少计算过程中对数据实施的扰动。本发明能够处理大规模数据集并满足海量数据聚类的需求。相比于传统算法,该算法具有更好的可扩展性和分布式计算能力。在聚类过程中,该算法采取指数机制和Laplace机制相结合的方法,从而有效降低隐私预算开销,进而缓解海量数据聚类过程中隐私性和可用性之间的矛盾问题。
Information query