一种敏感数据识别方法、装置及存储介质
摘要:
本申请公开了一种敏感数据识别方法、装置及存储介质。该方法具体包括:电子设备获取第一数据集及第二数据集,第一数据集包括N个字段的敏感数据,第二数据集包括M个字段的待检测数据;其中,第一数据集为预先存储的经过标注的敏感数据集,第二数据集为采集到的未经标注的数据集。电子设备对第一数据集及第二数据集中字符类型相同的字段的数据进行合并,获得第三数据集,第三数据集包括S个字段的数据。电子设备对第三数据集中的数据进行聚类,获得R类数据。电子设备确定第三数据集的R类数据中敏感数据与待检测数据的分布差异,若分布差异小于第一预设阈值,则确定第三数据集中的数据为敏感数据。通过该方法可以提高敏感数据识别的效率。
0/0