-
公开(公告)号:CN102141988B
公开(公告)日:2014-09-10
申请号:CN201010102976.1
申请日:2010-01-28
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据挖掘系统中数据聚类的方法、系统及装置,主要包括:A、主控节点将分块数据对象分发给至少两个计算节点;B、以串行方式或并行方式控制每个计算节点计算利用保存的数据对象中的非中心点对象分别替换设定个中心点对象后对应的替换代价;C、获取每个计算节点的执行结果,并是否存在小于零的替换代价;若是,确定替换同一中心点对象的多个非中心点对象中最小替换代价的非中心点对象,替换中心点对象,并返回步骤B;若否,则将当前各中心点对象及对应簇确定为最终聚类结果。根据该技术方案,提高了计算效率,并且应用于海量数据的处理需求。
-
公开(公告)号:CN101799807A
公开(公告)日:2010-08-11
申请号:CN200910077659.6
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种异构数据表的合并方法及其系统,本发明方法包括:为多个异构数据表分别分配表标识,并将表标识添加到相应数据表中的所有数据记录;根据设置的关键字字段,将具有相同关键字字段值但具有不同表标识的数据记录合并为新的数据记录,并将所述新的数据记录中的表标识删除;将删除了表标识的数据记录存储到新的数据表中。采用本发明,可实现异构数据表的数据合并处理,并可提高数据合并操作的效率。
-
公开(公告)号:CN101799748A
公开(公告)日:2010-08-11
申请号:CN200910077994.6
申请日:2009-02-06
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。
-
公开(公告)号:CN101799748B
公开(公告)日:2013-02-13
申请号:CN200910077994.6
申请日:2009-02-06
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。
-
公开(公告)号:CN102141988A
公开(公告)日:2011-08-03
申请号:CN201010102976.1
申请日:2010-01-28
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据挖掘系统中数据聚类的方法、系统及装置,主要包括:A、主控节点将分块数据对象分发给至少两个计算节点;B、以串行方式或并行方式控制每个计算节点计算利用保存的数据对象中的非中心点对象分别替换设定个中心点对象后对应的替换代价;C、获取每个计算节点的执行结果,并是否存在小于零的替换代价;若是,确定替换同一中心点对象的多个非中心点对象中最小替换代价的非中心点对象,替换中心点对象,并返回步骤B;若否,则将当前各中心点对象及对应簇确定为最终聚类结果。根据该技术方案,提高了计算效率,并且应用于海量数据的处理需求。
-
公开(公告)号:CN101996102B
公开(公告)日:2013-07-17
申请号:CN200910091865.2
申请日:2009-08-31
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了数据关联规则挖掘实现方法及系统。通过主控节点将数据记录进行分块,将分块数据记录分配并分发给至少两个计算节点。由各计算节点并行查找频繁1-项集;并根据排序后的频繁1-项集,产生子数据项串。由合并节点并行对全部子数据项串进行统计,构建本地FP子树。通过合并FP子树,得到合局FP树,进行数据关联规则挖掘。由于每个计算节点仅处理一部分数据记录,解决了海量数据无法由单机读入内存进行处理的问题;且多个节点并行参与处理,有效提高了处理效率。
-
公开(公告)号:CN101996197B
公开(公告)日:2012-12-26
申请号:CN200910091864.8
申请日:2009-08-31
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了聚类实现方法及系统。包括:由主控节点对样本分块,并将分块样本分配给至少两个计算节点,由各计算节点并行参与计算,将本地样本归属到对应聚类中,并对每一个聚类统计本地各样本的样本值的和值传送给合并节点,再由合并节点得到每一个聚类的虚拟聚类中心点信息,并传送给主控节点,由主控节点判断是否进行聚类中心点更新,以及是否启动下一轮聚类计算。本发明通过多个节点参与聚类实现过程,在聚类计算及合并过程中通过采用多个节点并行处理,解决了现有技术对海量数据无法实现聚类处理及处理效率低的问题。
-
公开(公告)号:CN101799810A
公开(公告)日:2010-08-11
申请号:CN200910077996.5
申请日:2009-02-06
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种关联规则挖掘方法及其系统。本发明方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。采用本发明,可提高关联规则挖掘的处理效率。
-
公开(公告)号:CN101799808A
公开(公告)日:2010-08-11
申请号:CN200910077660.9
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据处理方法和数据处理系统,本发明方法包括:并行执行多个Map任务,其中,每个Map任务获取待处理数据中相应部分的数据,并对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果;执行Reduce任务,所述Reduce任务根据所有局部处理结果得到所述待处理数据的全局处理结果。采用本发明,可提高数据挖掘过程中的数据预处理效率。
-
公开(公告)号:CN101996198B
公开(公告)日:2016-06-29
申请号:CN200910091866.7
申请日:2009-08-31
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种聚类实现方法及系统。由主控节点将候选队列中的候选样本进行分片,由至少两个计算节点并行地根据设定的ε邻域和最小密度分别确定出分配的分片样本中的每一个样本是否为核心样本;由于各计算节点并行处理,加快了样本数据库中各样本所属聚类的标记速度。本发明由主控节点对样本数据库中当前未标记样本进行分块,将分块样本分配并下发给至少两个计算节点,由各计算节点并行地对候选队列中的候选样本进行处理,再通过合并节点合并各计算节点的处理结果。由于每个计算节点仅处理部分样本,解决了海量数据无法单机处理的问题,且由于可以由多个计算节点及多个并合节点进行并行处理,大大提高了处理效率。
-
-
-
-
-
-
-
-
-