一种确定数据样本类别的方法及其系统

    公开(公告)号:CN101799748A

    公开(公告)日:2010-08-11

    申请号:CN200910077994.6

    申请日:2009-02-06

    Abstract: 本发明公开了一种确定数据样本的类别的方法及其系统。本发明方法包括:并行执行多个第一Map任务,其中,每个Map任务获取待分类数据样本集中的部分数据样本,计算该部分数据样本中每个数据样本与训练样本集中的训练样本的相似度,并针对每个数据样本取降序排序的前K个相似度所对应的类别;执行Reduce任务,所述Reduce任务分别对每个数据样本的K个相似度所对应的类别进行汇总,将每个数据样本中占多数的类别确定为该数据样本的类别。采用本发明,可提高数据样本分类处理的效率。

    网络间数据处理方法、装置及其转换网关

    公开(公告)号:CN101471863A

    公开(公告)日:2009-07-01

    申请号:CN200710304165.8

    申请日:2007-12-25

    Abstract: 本发明涉及一种网络间数据处理方法、装置及其转换网关。方法包括:接收从存储区域网络传输的FC帧,从所述FC帧中获取FCP服务优先级;根据预先设置的服务优先级映射表,获取与所述FCP服务优先级相对应的IP服务优先级;将所述FC帧封装成包括所述IP服务优先级的IP数据包,使所述IP数据包以所述IP服务优先级在IP网络中传输。装置包括:第一接收模块、第一解析模块、第一分类模块、第一封装模块、第一发送模块和第一映射模块。本发明实现了两个网络之间服务优先级的转换,使数据在整个传输过程中具有相应服务优先级,保证了网络之间数据传输的服务质量保证。

    数据块副本数量调整方法及元数据服务器节点

    公开(公告)号:CN101471845A

    公开(公告)日:2009-07-01

    申请号:CN200710304714.1

    申请日:2007-12-27

    Abstract: 本发明涉及一种数据块副本数量调整方法及元数据服务器节点,其中方法包括:元数据服务器节点查询一数据块副本的副本调整信息;当所述副本调整信息中设定的副本调整时刻达到时,根据所述副本调整信息中与该副本调整时刻相应的副本调整数对保存在数据块节点中的所述数据块副本的副本数量进行调整。元数据服务器节点包括:元数据处理模块和副本管理模块。通过本发明,可以对响应时间很长或访问频率高的数据块设置更多的副本数量,以提高用户访问这些数据的聚合带宽,从而在保证数据块的可用性及可靠性的同时,提高了系统资源的利用效率。

    一种实现不同数据源之间数据处理的方法及装置

    公开(公告)号:CN103916368A

    公开(公告)日:2014-07-09

    申请号:CN201210593327.5

    申请日:2012-12-31

    Abstract: 本发明提供一种实现不同数据源之间数据处理的方法及装置。所述方法包括:解析用户发出的数据处理命令,其中所述数据处理命令中所涉及的数据包括第一数据源和第二数据源中的数据;根据所述数据处理命令进行任务分解,分解后的所述数据处理命令包括对所述第一数据源中的数据操作的第一命令、对所述第二数据源中的数据操作的第二命令以及对所述第一数据源中的数据和所述第二数据源中的数据组合操作的第三命令;向所述第一数据源下发执行所述第一命令,向所述第二数据源下发执行所述第二命令,并根据所述第一命令和所述第二命令的执行结果,执行所述第三命令。本发明所述方法和装置能够实现不同数据源之间的透明访问,提高数据处理的效率。

    一种词汇分类的方法、系统和实现方法

    公开(公告)号:CN103186612A

    公开(公告)日:2013-07-03

    申请号:CN201110456676.8

    申请日:2011-12-30

    Abstract: 本发明公开了一种词汇分类的方法、系统和实现方法,首先获取文档分类训练集,包括文档及其所属的文档类别信息,对所有文档进行预处理,形成待分类词汇,获取每个待分类词汇在一个文档类别中的TF值和IDF值,并对两者求和得到TF-IDF,除以每个待分类词汇在其文档所属的所有文档类别中的TF-IDF之和,获得的商值作为待分类词汇属于文档类别的概率,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。采用了本发明的技术方案,能够自动完成词汇分类,而且投入很少,效果更加准确。

    一种数据挖掘系统中数据预处理的方法、系统及装置

    公开(公告)号:CN102054001B

    公开(公告)日:2012-10-03

    申请号:CN200910236744.2

    申请日:2009-10-28

    Abstract: 本发明公开了一种数据挖掘系统中数据预处理的方法、系统及装置,其中,数据预处理对应具有设定执行次序的多个预处理方式,主要技术方案包括:确定数据预处理对应的当前预处理方式;在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案,减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。

    一种网络性能检测方法及设备

    公开(公告)号:CN101771578B

    公开(公告)日:2012-10-03

    申请号:CN200810247302.3

    申请日:2008-12-29

    Abstract: 本发明公开了一种网络性能检测方法,包括:将采集到的服务器运行通信业务时的通信事件划分为多个信息集合,并且同一信息集合内的通信事件对应相同的通信业务,其中,每个通信事件对应运行所述通信事件的时间点;确定属于同一信息集合的相邻两个时间点,将所述相邻两个时间点的时间间距作为该相邻两个时间点中,前一个时间点对应的待检测的通信事件的执行时间;比较所述待检测的通信事件的执行时间与设定时间,根据比较结果确定与所述待检测的通信事件相关的服务器性能。通过本发明,可以直观和有效的发现性能可能出现问题的服务器。本发明还公开了一种网络性能检测设备。

    聚类实现方法及系统

    公开(公告)号:CN101996198A

    公开(公告)日:2011-03-30

    申请号:CN200910091866.7

    申请日:2009-08-31

    Abstract: 本发明公开了一种聚类实现方法及系统。由主控节点将候选队列中的候选样本进行分片,由至少两个计算节点并行地根据设定的ε邻域和最小密度分别确定出分配的分片样本中的每一个样本是否为核心样本;由于各计算节点并行处理,加快了样本数据库中各样本所属聚类的标记速度。本发明公开的另一种聚类实现方法及系统,由主控节点对样本数据库中当前未标记样本进行分块,将分块样本分配并下发给至少两个计算节点,由各计算节点并行地对候选队列中的候选样本进行处理,再通过合并节点合并各计算节点的处理结果。由于每个计算节点仅处理部分样本,解决了海量数据无法单机处理的问题,且由于可以由多个计算节点及多个并合节点进行并行处理,大大提高了处理效率。

Patent Agency Ranking