-
公开(公告)号:CN101799808A
公开(公告)日:2010-08-11
申请号:CN200910077660.9
申请日:2009-02-10
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据处理方法和数据处理系统,本发明方法包括:并行执行多个Map任务,其中,每个Map任务获取待处理数据中相应部分的数据,并对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果;执行Reduce任务,所述Reduce任务根据所有局部处理结果得到所述待处理数据的全局处理结果。采用本发明,可提高数据挖掘过程中的数据预处理效率。
-
公开(公告)号:CN101753608A
公开(公告)日:2010-06-23
申请号:CN200810239118.4
申请日:2008-12-09
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了一种分布式系统的调度方法及系统,其中,该方法包括:数据调度器接收调度请求,该调度请求包括对数据的读取操作;数据保存在分布式系统中的至少一个提供数据服务的实体上;数据调度器确定该调度请求对应的各数据服务的状态,并在各数据服务为空闲或读取状态时,发送同意对各数据服务进行读取操作的调度响应;各数据服务为至少一个相同的数据服务。本发明可有效解决现有技术的分布式调度方式中资源浪费、任务处理效率低等缺陷,实现资源合理利用、提高任务处理效率。
-
公开(公告)号:CN106354733B
公开(公告)日:2019-12-06
申请号:CN201510423499.1
申请日:2015-07-17
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团公司
IPC: G06F16/958
Abstract: 本发明公开了一种微博用户影响力计算方法,包括:为微博用户构建传播模型;根据传播模型和加权佩奇排名(PageRank)算法计算微博用户的影响力;根据微博用户的影响力计算微博用户的影响力真实性系数;根据微博用户的影响力真实性系数计算微博用户的最终影响力。本发明还同时公开了一种微博用户影响力计算装置。
-
公开(公告)号:CN109802832A
公开(公告)日:2019-05-24
申请号:CN201711148631.8
申请日:2017-11-17
Applicant: 中国移动通信集团公司
Abstract: 本发明实施例公开了一种数据文件的处理方法,该方法包括:接收数据文件的操作请求,根据操作请求获取数据文件的一个以上密钥和数据文件的一个以上解密算法;获取服务器侧的文件加密密钥及加密算法;基于数据文件的一个以上密钥、数据文件的一个以上解密算法、服务器侧的文件加密密钥及加密算法,生成与操作请求对应的操作指令;将操作指令向大数据处理服务器发送,接收大数据处理服务器对数据文件的操作指令的响应,响应中至少包括对数据文件的操作结果的存储位置。本发明实施例还同时公开了一种数据文件的处理系统、大数据处理服务器和计算机存储介质。
-
公开(公告)号:CN105808340B
公开(公告)日:2019-04-23
申请号:CN201410836737.7
申请日:2014-12-29
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团公司
IPC: G06F9/50
Abstract: 本发明实施例公开了一种负载均衡方法及系统,所述方法包括:获取在第L超级步中每个任务的相关信息;依据每个任务的相关信息,预测每个任务在第K超级步中的激活顶点数量;依据每个任务在第K超级步的激活顶点数量,预测每个任务在第K超级步的运行时间;其中,L为大于等于1的正整数、K为大于L的正整数;依据每个任务在第K超级步中的运行时间,确定短板任务集合和长板任务集合;预测将短板任务集合中一任务上的数据迁移至长板任务集合中一任务上而产生的迁移收益及迁移代价;当迁移收益不低于迁移代价时,将短板任务集合中所述任务上的数据迁移至长板任务集合中的所述任务上。能够避免水桶效应,使各任务的计算负载均衡,提高计算效率。
-
公开(公告)号:CN103138981B
公开(公告)日:2017-03-29
申请号:CN201110391293.7
申请日:2011-11-30
Applicant: 中国移动通信集团公司
IPC: H04L12/24
Abstract: 本发明公开了一种社交网络分析方法和装置。其中该方法包括:根据社交网络文件生成针对每个节点的节点信息;控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。本发明通过采用多个节点同时并发的机制,即所有节点都并行推送遍历信息,解决了社交网络中需要多次迭代才能遍历完数据的问题,降低了分析的时间复杂度,提高分析效率。
-
公开(公告)号:CN106354733A
公开(公告)日:2017-01-25
申请号:CN201510423499.1
申请日:2015-07-17
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种微博用户影响力计算方法,包括:为微博用户构建传播模型;根据传播模型和加权佩奇排名(PageRank)算法计算微博用户的影响力;根据微博用户的影响力计算微博用户的影响力真实性系数;根据微博用户的影响力真实性系数计算微博用户的最终影响力。本发明还同时公开了一种微博用户影响力计算装置。
-
公开(公告)号:CN105808340A
公开(公告)日:2016-07-27
申请号:CN201410836737.7
申请日:2014-12-29
Applicant: 中移(苏州)软件技术有限公司 , 中国移动通信集团公司
IPC: G06F9/50
Abstract: 本发明实施例公开了一种负载均衡方法及系统,所述方法包括:获取在第L超级步中每个任务的相关信息;依据每个任务的相关信息,预测每个任务在第K超级步中的激活顶点数量;依据每个任务在第K超级步的激活顶点数量,预测每个任务在第K超级步的运行时间;其中,L为大于等于1的正整数、K为大于L的正整数;依据每个任务在第K超级步中的运行时间,确定短板任务集合和长板任务集合;预测将短板任务集合中一任务上的数据迁移至长板任务集合中一任务上而产生的迁移收益及迁移代价;当迁移收益不低于迁移代价时,将短板任务集合中所述任务上的数据迁移至长板任务集合中的所述任务上。能够避免水桶效应,使各任务的计算负载均衡,提高计算效率。
-
公开(公告)号:CN101996198B
公开(公告)日:2016-06-29
申请号:CN200910091866.7
申请日:2009-08-31
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种聚类实现方法及系统。由主控节点将候选队列中的候选样本进行分片,由至少两个计算节点并行地根据设定的ε邻域和最小密度分别确定出分配的分片样本中的每一个样本是否为核心样本;由于各计算节点并行处理,加快了样本数据库中各样本所属聚类的标记速度。本发明由主控节点对样本数据库中当前未标记样本进行分块,将分块样本分配并下发给至少两个计算节点,由各计算节点并行地对候选队列中的候选样本进行处理,再通过合并节点合并各计算节点的处理结果。由于每个计算节点仅处理部分样本,解决了海量数据无法单机处理的问题,且由于可以由多个计算节点及多个并合节点进行并行处理,大大提高了处理效率。
-
公开(公告)号:CN103186612B
公开(公告)日:2016-04-27
申请号:CN201110456676.8
申请日:2011-12-30
Applicant: 中国移动通信集团公司
Abstract: 本发明公开了一种词汇分类的方法、系统和实现方法,首先获取文档分类训练集,包括文档及其所属的文档类别信息,对所有文档进行预处理,形成待分类词汇,获取每个待分类词汇在一个文档类别中的TF值和IDF值,并对两者求和得到TF-IDF,除以每个待分类词汇在其文档所属的所有文档类别中的TF-IDF之和,获得的商值作为待分类词汇属于文档类别的概率,生成包括待分类词汇、待分类词汇对应的类别和待分类词汇属于对应类别的概率的词汇分类数据库。采用了本发明的技术方案,能够自动完成词汇分类,而且投入很少,效果更加准确。
-
-
-
-
-
-
-
-
-