一种分布式互联网行为分析方法、装置及系统

    公开(公告)号:CN103905266A

    公开(公告)日:2014-07-02

    申请号:CN201210581807.X

    申请日:2012-12-27

    Abstract: 本发明公开了一种分布式互联网行为分析方法、装置及系统,通过将个性化较强日志分析装置分布式部署在各省,将共同通用的网页分析装置集中建设。这样,每个日志分析装置可以灵活的选用日志分析方式,避免了在网络上传输海量的日志数据,提高了网络分析的效率,减少了网络分析的时间。同时避免了网页分析装置的重复建设,降低了网络建设成本。

    一种数据处理方法、设备和系统

    公开(公告)号:CN103902614A

    公开(公告)日:2014-07-02

    申请号:CN201210584674.1

    申请日:2012-12-28

    CPC classification number: G06F17/30442 G06F17/30545

    Abstract: 本发明实施例公开了一种数据处理方法、设备和系统,该方法包括:分片服务器接收主服务器转发的数据查询请求,其中携带有用于指示请求读取的数据所在行的key字段和用于指示请求读取的数据所在列的列表字段;所述分片服务器根据所述key字段和列表字段在自身存储的数据中查询对应的列数据,并将查询到的列数据以数组的形式返回给所述主服务器。在本发明中,降低了分布式列存储数据库系统中数据处理的性能消耗,提高了数据处理效率。

    数据关联规则挖掘实现方法与系统

    公开(公告)号:CN101996102B

    公开(公告)日:2013-07-17

    申请号:CN200910091865.2

    申请日:2009-08-31

    Abstract: 本发明公开了数据关联规则挖掘实现方法及系统。通过主控节点将数据记录进行分块,将分块数据记录分配并分发给至少两个计算节点。由各计算节点并行查找频繁1-项集;并根据排序后的频繁1-项集,产生子数据项串。由合并节点并行对全部子数据项串进行统计,构建本地FP子树。通过合并FP子树,得到合局FP树,进行数据关联规则挖掘。由于每个计算节点仅处理一部分数据记录,解决了海量数据无法由单机读入内存进行处理的问题;且多个节点并行参与处理,有效提高了处理效率。

    聚类实现方法及系统
    44.
    发明授权

    公开(公告)号:CN101996197B

    公开(公告)日:2012-12-26

    申请号:CN200910091864.8

    申请日:2009-08-31

    Abstract: 本发明公开了聚类实现方法及系统。包括:由主控节点对样本分块,并将分块样本分配给至少两个计算节点,由各计算节点并行参与计算,将本地样本归属到对应聚类中,并对每一个聚类统计本地各样本的样本值的和值传送给合并节点,再由合并节点得到每一个聚类的虚拟聚类中心点信息,并传送给主控节点,由主控节点判断是否进行聚类中心点更新,以及是否启动下一轮聚类计算。本发明通过多个节点参与聚类实现过程,在聚类计算及合并过程中通过采用多个节点并行处理,解决了现有技术对海量数据无法实现聚类处理及处理效率低的问题。

    一种基于云计算的数据挖掘方法、系统及装置

    公开(公告)号:CN102567396A

    公开(公告)日:2012-07-11

    申请号:CN201010616075.4

    申请日:2010-12-30

    Abstract: 本发明公开了一种基于云计算的数据挖掘方法、系统及装置,用以解决现有数据挖掘过程中效率低,无法满足海量数据处理需求的问题。该系统当PDM服务器接收到web服务器拆分后的用户的数据挖掘请求对应的每个子任务后,根据保存的并行算法,确定每个子任务对应的并行作业任务,向云平台集群控制节点发送该并行作业任务,将接收到的云平台集群控制节点返回的挖掘数据进行整合后提供个web服务器。由于在本发明实施例中该数据挖掘的过程通过web方式实现,因此该数据挖掘的方法可以同时为多个用户提供,并且该数据挖掘的过程中基于并行作业任务进行挖掘,因此有效的提高了数据挖掘的效率。

    分布式列存储数据库索引建立、查询方法及装置与系统

    公开(公告)号:CN101727465B

    公开(公告)日:2011-12-21

    申请号:CN200810225486.3

    申请日:2008-11-03

    CPC classification number: G06F17/30321 G06F17/30315

    Abstract: 本发明公开了一种分布式列存储数据库索引建立方法、查询方法及装置与系统。该分布式列存储数据库索引建立方法包括:获取分布式列存储数据库中的列字段,生成以所述列字段作为关键字的列索引文件,所述列索引文件中包含所述列字段在所述分布式列存储数据库中的值与对应的Row字段值的映射关系;存储所述列索引文件到所述分布式列存储数据库中与所述列字段对应的索引目录下。客户端发起以列字段作为查询条件和查询结果的查询请求时,通过匹配出相应的列索引文件,得到对应的Row字段值,从而实现索引查询。采用本发明能在现有分布式列存储数据库中,实现除Row字段外的其它列字段快速查询。

    数据挖掘方法和数据挖掘系统

    公开(公告)号:CN101799809B

    公开(公告)日:2011-12-14

    申请号:CN200910077661.3

    申请日:2009-02-10

    Abstract: 本发明公开了数据挖掘方法及数据挖掘系统,本发明方法包括:设置数据挖掘的工作流,所述工作流中包括多个并行的数据处理任务;启动所述工作流,并在所述多个并行的数据处理任务被触发时,为其中的每个数据处理任务分配执行节点,以使所述多个并行的数据处理任务在分配的执行节点上并行执行;以及,所述执行节点在执行每个数据处理任务时,通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理,将该数据处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并处理得到相应数据处理任务的处理结果。采用本发明,可提高数据挖掘效率。

    设备、网络状态分析方法及装置

    公开(公告)号:CN101453383B

    公开(公告)日:2011-06-15

    申请号:CN200710178876.5

    申请日:2007-12-06

    Abstract: 本发明涉及一种设备、网络状态分析方法及装置,设备状态分析方法包括:采集设备中各工作单元的实际温度参数;根据各实际温度参数获得温度变化参数,进而获得设备温度参数;由所述设备温度参数获得设备健康状态。进一步地还包括:采集设备中各工作单元的实际使用参数;根据各实际使用参数获得设备使用参数;由所述设备温度参数和设备使用参数获得设备运行状态。本发明通过监控设备/网络中各元素在不同业务负载下的温度情况得到设备/网络的健康状态,进一步地通过监控设备/网络中各元素温度参数和使用参数获得设备/网络的运行状态,可发现各种情况引起的设备/网络状态隐患,实现有效的优化管理。

    一种数据挖掘系统中决策树的生成方法及装置

    公开(公告)号:CN102054002A

    公开(公告)日:2011-05-11

    申请号:CN200910236747.6

    申请日:2009-10-28

    Abstract: 本发明公开了一种数据挖掘系统中决策树的生成方法及装置,主要技术方案包括:A、遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;B、根据确定的未分类数据属性,确定每个候选节点分别对应的数据属性的属性值;C、根据确定的属性值,分别生成每个节点的决策树分支;D、分别判断每个决策树分支下节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的节点确定为当前层的下一层的候选节点,并将下一层作为当前层返回步骤A,将判断结果为是的节点分别确定为其所在分支的最后一个节点。根据该技术方案,减少了遍历数据集合的次数,从而提高了计算效率,减少了对系统资源的占用。

    一种关联规则挖掘方法及其系统

    公开(公告)号:CN101799810A

    公开(公告)日:2010-08-11

    申请号:CN200910077996.5

    申请日:2009-02-06

    Abstract: 本发明公开了一种关联规则挖掘方法及其系统。本发明方法包括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足可信度要求的关联规则时输出该关联规则。采用本发明,可提高关联规则挖掘的处理效率。

Patent Agency Ranking