-
公开(公告)号:CN107301460A
公开(公告)日:2017-10-27
申请号:CN201710384473.X
申请日:2017-05-26
Applicant: 中国科学院计算技术研究所
IPC: G06N99/00
CPC classification number: G06N99/005
Abstract: 本发明涉及一种获得邻域和正域的方法和系统,包括:将哈希分桶后的数据集作为算法的输入,遍历每个数据桶中的样本,通过正域标志判断当前样本是否已被标记为非正域样本,若是则对其他样本进行正域判断,否则查找当前样本的邻域样本;判断当前样本和邻域样本的决策属性值是否相同,若是则舍弃邻域样本,检索其它邻域样本,否则判断当前样本和邻域样本是否互为邻域,若是则通过正域标志将当前样本和邻域样本标记为非正域样本,否则舍弃邻域样本,检索当前样本的其它邻域样本。本发明利用邻域关系的对称性、哈希映射函数的局部敏感性和决策属性过滤策略优化了计算邻域和正域的计算效率。