Patent search ap:("国家计算机网络与信息安全管理中心" OR "北京邮电大学") AND inv:"龚晓菲" Page 1

1.

发明公开
一种基于信息熵的数据填充方法及装置有权

公开(公告)号：CN109460775A

公开(公告)日：2019-03-12

申请号：CN201811102220.X

申请日：2018-09-20

Applicant: 国家计算机网络与信息安全管理中心 , 北京邮电大学

Inventor： 王进 , 龚晓菲 , 时忆杰 , 何跃鹰

IPC: G06K9/62

CPC classification number: G06K9/6298 , G06K9/6223 , G06K9/6276

Abstract: 本发明实施例提供了一种基于信息熵的数据填充方法及装置，其中，方法包括：对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，得到已有数据中缺少属性值的缺失数据中的预填充属性值；将预填充属性值预填充在缺失数据中，获得预填充后缺失数据；采用硬聚类算法K-means，对预填充后缺失数据以及完整数据进行聚类，获得与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据；计算相似完整数据的信息熵；基于信息熵，计算相似完整数据中的属性值对缺失数据的属性值所作贡献的权重；利用权重与相似完整数据的属性值，计算缺失属性值；将缺失属性值填充在缺失数据中。

2.

发明授权
一种基于信息熵的数据填充方法及装置有权

公开(公告)号：CN109460775B

公开(公告)日：2020-09-11

申请号：CN201811102220.X

申请日：2018-09-20

Applicant: 国家计算机网络与信息安全管理中心 , 北京邮电大学

Inventor： 王进 , 龚晓菲 , 时忆杰 , 何跃鹰

IPC: G06K9/62

Abstract: 本发明实施例提供了一种基于信息熵的数据填充方法及装置，其中，方法包括：对已有数据中属性值完整的完整数据的属性值进行求均值或求众数，得到已有数据中缺少属性值的缺失数据中的预填充属性值；将预填充属性值预填充在缺失数据中，获得预填充后缺失数据；采用硬聚类算法K‑means，对预填充后缺失数据以及完整数据进行聚类，获得与预填充后缺失数据处于同一簇内，且与预填充后缺失数据相似度达到预设条件的完整数据，作为相似完整数据；计算相似完整数据的信息熵；基于信息熵，计算相似完整数据中的属性值对缺失数据的属性值所作贡献的权重；利用权重与相似完整数据的属性值，计算缺失属性值；将缺失属性值填充在缺失数据中。

Patent Agency Ranking