-
公开(公告)号:CN109460775A
公开(公告)日:2019-03-12
申请号:CN201811102220.X
申请日:2018-09-20
Applicant: 国家计算机网络与信息安全管理中心 , 北京邮电大学
IPC: G06K9/62
CPC classification number: G06K9/6298 , G06K9/6223 , G06K9/6276
Abstract: 本发明实施例提供了一种基于信息熵的数据填充方法及装置,其中,方法包括:对已有数据中属性值完整的完整数据的属性值进行求均值或求众数,得到已有数据中缺少属性值的缺失数据中的预填充属性值;将预填充属性值预填充在缺失数据中,获得预填充后缺失数据;采用硬聚类算法K-means,对预填充后缺失数据以及完整数据进行聚类,获得与预填充后缺失数据处于同一簇内,且与预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据;计算相似完整数据的信息熵;基于信息熵,计算相似完整数据中的属性值对缺失数据的属性值所作贡献的权重;利用权重与相似完整数据的属性值,计算缺失属性值;将缺失属性值填充在缺失数据中。
-
公开(公告)号:CN109460775B
公开(公告)日:2020-09-11
申请号:CN201811102220.X
申请日:2018-09-20
Applicant: 国家计算机网络与信息安全管理中心 , 北京邮电大学
IPC: G06K9/62
Abstract: 本发明实施例提供了一种基于信息熵的数据填充方法及装置,其中,方法包括:对已有数据中属性值完整的完整数据的属性值进行求均值或求众数,得到已有数据中缺少属性值的缺失数据中的预填充属性值;将预填充属性值预填充在缺失数据中,获得预填充后缺失数据;采用硬聚类算法K‑means,对预填充后缺失数据以及完整数据进行聚类,获得与预填充后缺失数据处于同一簇内,且与预填充后缺失数据相似度达到预设条件的完整数据,作为相似完整数据;计算相似完整数据的信息熵;基于信息熵,计算相似完整数据中的属性值对缺失数据的属性值所作贡献的权重;利用权重与相似完整数据的属性值,计算缺失属性值;将缺失属性值填充在缺失数据中。
-