发明公开
- 专利标题: 一种敏感数据识别方法、装置及存储介质
-
申请号: CN202310833297.9申请日: 2023-07-07
-
公开(公告)号: CN116894073A公开(公告)日: 2023-10-17
- 发明人: 王铮
- 申请人: 中国电信股份有限公司技术创新中心 , 中国电信股份有限公司
- 申请人地址: 北京市昌平区北七家镇未来科技城南区中国电信北京信息科技创新园11层1118室、1116室;
- 专利权人: 中国电信股份有限公司技术创新中心,中国电信股份有限公司
- 当前专利权人: 中国电信股份有限公司技术创新中心,中国电信股份有限公司
- 当前专利权人地址: 北京市昌平区北七家镇未来科技城南区中国电信北京信息科技创新园11层1118室、1116室;
- 代理机构: 北京同达信恒知识产权代理有限公司
- 代理商 孙小明
- 主分类号: G06F16/28
- IPC分类号: G06F16/28 ; G06F18/232 ; G06F21/62
摘要:
本申请公开了一种敏感数据识别方法、装置及存储介质。该方法具体包括:电子设备获取第一数据集及第二数据集,第一数据集包括N个字段的敏感数据,第二数据集包括M个字段的待检测数据;其中,第一数据集为预先存储的经过标注的敏感数据集,第二数据集为采集到的未经标注的数据集。电子设备对第一数据集及第二数据集中字符类型相同的字段的数据进行合并,获得第三数据集,第三数据集包括S个字段的数据。电子设备对第三数据集中的数据进行聚类,获得R类数据。电子设备确定第三数据集的R类数据中敏感数据与待检测数据的分布差异,若分布差异小于第一预设阈值,则确定第三数据集中的数据为敏感数据。通过该方法可以提高敏感数据识别的效率。