聚类实现方法及系统
    21.
    发明公开

    公开(公告)号:CN101996197A

    公开(公告)日:2011-03-30

    申请号:CN200910091864.8

    申请日:2009-08-31

    Abstract: 本发明公开了聚类实现方法及系统。包括:由主控节点对样本分块,并将分块样本分配给至少两个计算节点,由各计算节点并行参与计算,将本地样本归属到对应聚类中,并对每一个聚类统计本地各样本的样本值的和值传送给合并节点,再由合并节点得到每一个聚类的虚拟聚类中心点信息,并传送给主控节点,由主控节点判断是否进行聚类中心点更新,以及是否启动下一轮聚类计算。本发明通过多个节点参与聚类实现过程,在聚类计算及合并过程中通过采用多个节点并行处理,解决了现有技术对海量数据无法实现聚类处理及处理效率低的问题。

    数据挖掘方法和数据挖掘系统

    公开(公告)号:CN101799809A

    公开(公告)日:2010-08-11

    申请号:CN200910077661.3

    申请日:2009-02-10

    Abstract: 本发明公开了数据挖掘方法及数据挖掘系统,本发明方法包括:设置数据挖掘的工作流,所述工作流中包括多个并行的数据处理任务;启动所述工作流,并在所述多个并行的数据处理任务被触发时,为其中的每个数据处理任务分配执行节点,以使所述多个并行的数据处理任务在分配的执行节点上并行执行;以及,所述执行节点在执行每个数据处理任务时,通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理,将该数据处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并处理得到相应数据处理任务的处理结果。采用本发明,可提高数据挖掘效率。

    MapReduce系统中的Map任务调度方法、设备及系统

    公开(公告)号:CN101770402A

    公开(公告)日:2010-07-07

    申请号:CN200810247307.6

    申请日:2008-12-29

    Abstract: 本发明公开了一种MapReduce系统中的Map任务调度方法,该方法包括:主节点在接收到工作节点的任务请求后,根据任务所处理数据的分布情况确定任务的调度优先级;主节点根据确定出的任务的调度优先级,将任务调度至工作节点。本发明同时公开一种MapReduce系统中执行Map任务调度的主节点、一种MapReduce系统。采用本发明可以提高Map任务本地化执行的概率、减少网络开销。

    分布式列存储数据库索引建立、查询方法及装置与系统

    公开(公告)号:CN101727465A

    公开(公告)日:2010-06-09

    申请号:CN200810225486.3

    申请日:2008-11-03

    CPC classification number: G06F17/30321 G06F17/30315

    Abstract: 本发明公开了一种分布式列存储数据库索引建立方法、查询方法及装置与系统。该分布式列存储数据库索引建立方法包括:获取分布式列存储数据库中的列字段,生成以所述列字段作为关键字的列索引文件,所述列索引文件中包含所述列字段在所述分布式列存储数据库中的值与对应的Row字段值的映射关系;存储所述列索引文件到所述分布式列存储数据库中与所述列字段对应的索引目录下。客户端发起以列字段作为查询条件和查询结果的查询请求时,通过匹配出相应的列索引文件,得到对应的Row字段值,从而实现索引查询。采用本发明能在现有分布式列存储数据库中,实现除Row字段外的其它列字段快速查询。

    一种基于MapReduce的数据处理方法和装置

    公开(公告)号:CN104978345B

    公开(公告)日:2018-08-17

    申请号:CN201410140407.4

    申请日:2014-04-09

    Abstract: 本发明公开了一种基于MapReduce的数据处理方法和装置,用以解决现有技术中的MapReduce流程在处理数据时会频繁进行磁盘读写操作从而造成额外开销,严重影响系统性能的问题。该方法包括:确定针对欲处理数据所要执行的第一MapReduce流程;所述第一MapReduce流程中包含多个MapReduce作业;将所述第一MapReduce流程中满足预先设置的合并规则的MapReduce作业进行合并,得到第二MapReduce流程;其中,所述合并规则满足:合并前的MapReduce作业的执行结果与合并后的MapReduce作业的执行结果相同;对所述预处理数据执行所述第二MapReduce流程。

    一种上网偏好用户群体的确定方法和设备

    公开(公告)号:CN104750752B

    公开(公告)日:2018-06-15

    申请号:CN201310752439.5

    申请日:2013-12-31

    Abstract: 本发明实施例公开了一种上网偏好用户群体的确定方法和设备,通过应用本发明实施例所提出的技术方案,在需要确定上网偏好用户群体时,根据上网偏好用户群体所对应的关键词确定相应的目标URL,并结合该目标URL所对应的倒排索引信息,确定对该目标URL的访问次数符合用户筛选条件的各用户标识所对应的用户组成该上网偏好用户群体,从而,充分利用倒排索引信息高性能、高灵活度的特征,实现上网偏好用户群体的快速获取,避免了大量数据记录和匹配所带来的系统资源的消耗,提高了上网偏好用户群体确定过程的处理效率和筛选准确度。

    一种上网偏好用户群体的确定方法和设备

    公开(公告)号:CN104750752A

    公开(公告)日:2015-07-01

    申请号:CN201310752439.5

    申请日:2013-12-31

    Abstract: 本发明实施例公开了一种上网偏好用户群体的确定方法和设备,通过应用本发明实施例所提出的技术方案,在需要确定上网偏好用户群体时,根据上网偏好用户群体所对应的关键词确定相应的目标URL,并结合该目标URL所对应的倒排索引信息,确定对该目标URL的访问次数符合用户筛选条件的各用户标识所对应的用户组成该上网偏好用户群体,从而,充分利用倒排索引信息高性能、高灵活度的特征,实现上网偏好用户群体的快速获取,避免了大量数据记录和匹配所带来的系统资源的消耗,提高了上网偏好用户群体确定过程的处理效率和筛选准确度。

Patent Agency Ranking