一种基于Spark的支持差分隐私的聚类方法

Invention Publication

CN117034057A 一种基于Spark的支持差分隐私的聚类方法审中-实审

Please log in to see more content

Patent Title: 一种基于Spark的支持差分隐私的聚类方法
Application No.: CN202310898772.0

Application Date: 2023-07-21
Publication No.: CN117034057A

Publication Date: 2023-11-10
Inventor: 彭长根 , 石江南 , 谭伟杰
Applicant: 贵州大学
Applicant Address: 贵州省贵阳市花溪区
Assignee: 贵州大学
Current Assignee: 贵州大学
Current Assignee Address: 贵州省贵阳市花溪区
Agency: 上海天知澜知识产权代理有限公司
Agent 李余江
Main IPC: G06F18/2321
IPC: G06F18/2321 ; G06F18/21 ; G06F9/46 ; G06F21/62

Abstract:

本发明公开了一种基于Spark的支持差分隐私的聚类方法，该算法通过内存计算引擎Spark，创建弹性分布式数据集，利用转换算子及行动算子操作数据进行运算，并在选取初始化中心点及迭代更新中心点的过程中，通过综合利用指数机制和拉普拉斯机制，以解决初始聚类中心敏感及隐私泄漏问题，同时减少计算过程中对数据实施的扰动。本发明能够处理大规模数据集并满足海量数据聚类的需求。相比于传统算法，该算法具有更好的可扩展性和分布式计算能力。在聚类过程中，该算法采取指数机制和Laplace机制相结合的方法，从而有效降低隐私预算开销，进而缓解海量数据聚类过程中隐私性和可用性之间的矛盾问题。

Information query

Chinese Patent Announcement Global Dossier Espacenet