-
公开(公告)号:CN109117440A
公开(公告)日:2019-01-01
申请号:CN201710485959.2
申请日:2017-06-23
Applicant: 中国移动通信集团公司
IPC: G06F16/907
Abstract: 本发明实施例公开了一种元数据信息获取方法,根据获取的数据源生成待识别数据,所述待识别数据包括:多个行数据和多个列数据;根据预存储的规则对所述待识别数据进行扫描匹配,获得所述数据源的元数据信息,所述元数据信息包括至少一种以下信息:数据结构信息、数据度量信息和数据关系信息。本发明实施例公开了一种元数据信息获取系统和计算机可读存储介质。
-
公开(公告)号:CN103092886B
公开(公告)日:2016-03-02
申请号:CN201110347659.0
申请日:2011-11-07
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据查询操作的实现方法、装置及系统,对外部数据系统的数据表执行查询操作后,将查询到的数据缓存到临时表中;对临时表中缓存的数据增加索引后,将临时表中的所有数据均匀分配给各数据交换节点,确定其对应的索引范围。本发明通过建立临时表缓存查询到的数据,各个数据交换节点就可以直接并行地对缓存表中的部分数据进行读取操作,避免了每个数据交换节点都需要并行地在外部系统中进行复杂的查询操作,减轻了在处理大量数据时外部数据系统服务器的负担,并且,由于分配给各数据交换节点的临时表中的索引范围对应的数据行数相对平均,保证了各个数据交换节点在并行处理时运行时间能够基本相同,从而提高了整体的查询效率。
-
公开(公告)号:CN102955810B
公开(公告)日:2015-12-02
申请号:CN201110249270.2
申请日:2011-08-26
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种网页分类方法和设备,该方法利用现有URL类别库中的记录,建立虚拟的层级URL,并对层级URL的类别进行预测。当需要对待分类网页进行分类时,根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。在本发明中,提高了网页分类的效率和成功率。
-
公开(公告)号:CN104978345A
公开(公告)日:2015-10-14
申请号:CN201410140407.4
申请日:2014-04-09
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种基于MapReduce的数据处理方法和装置,用以解决现有技术中的MapReduce流程在处理数据时会频繁进行磁盘读写操作从而造成额外开销,严重影响系统性能的问题。该方法包括:确定针对欲处理数据所要执行的第一MapReduce流程;所述第一MapReduce流程中包含多个MapReduce作业;将所述第一MapReduce流程中满足预先设置的合并规则的MapReduce作业进行合并,得到第二MapReduce流程;其中,所述合并规则满足:合并前的MapReduce作业的执行结果与合并后的MapReduce作业的执行结果相同;对所述预处理数据执行所述第二MapReduce流程。
-
公开(公告)号:CN102141988B
公开(公告)日:2014-09-10
申请号:CN201010102976.1
申请日:2010-01-28
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据挖掘系统中数据聚类的方法、系统及装置,主要包括:A、主控节点将分块数据对象分发给至少两个计算节点;B、以串行方式或并行方式控制每个计算节点计算利用保存的数据对象中的非中心点对象分别替换设定个中心点对象后对应的替换代价;C、获取每个计算节点的执行结果,并是否存在小于零的替换代价;若是,确定替换同一中心点对象的多个非中心点对象中最小替换代价的非中心点对象,替换中心点对象,并返回步骤B;若否,则将当前各中心点对象及对应簇确定为最终聚类结果。根据该技术方案,提高了计算效率,并且应用于海量数据的处理需求。
-
公开(公告)号:CN103138981A
公开(公告)日:2013-06-05
申请号:CN201110391293.7
申请日:2011-11-30
Applicant: 中国移动通信集团公司
IPC: H04L12/24
Abstract: 本发明公开了一种社交网络分析方法和装置。其中该方法包括:根据社交网络文件生成针对每个节点的节点信息;控制所述社交网络中所有节点根据相应的节点信息进行遍历,遍历所述社交网络所有节点后,得到所述社交网络的拓扑特征值。本发明通过采用多个节点同时并发的机制,即所有节点都并行推送遍历信息,解决了社交网络中需要多次迭代才能遍历完数据的问题,降低了分析的时间复杂度,提高分析效率。
-
公开(公告)号:CN103092886A
公开(公告)日:2013-05-08
申请号:CN201110347659.0
申请日:2011-11-07
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据查询操作的实现方法、装置及系统,对外部数据系统的数据表执行查询操作后,将查询到的数据缓存到临时表中;对临时表中缓存的数据增加索引后,将临时表中的所有数据均匀分配给各数据交换节点,确定其对应的索引范围。本发明通过建立临时表缓存查询到的数据,各个数据交换节点就可以直接并行地对缓存表中的部分数据进行读取操作,避免了每个数据交换节点都需要并行地在外部系统中进行复杂的查询操作,减轻了在处理大量数据时外部数据系统服务器的负担,并且,由于分配给各数据交换节点的临时表中的索引范围对应的数据行数相对平均,保证了各个数据交换节点在并行处理时运行时间能够基本相同,从而提高了整体的查询效率。
-
公开(公告)号:CN101751415B
公开(公告)日:2012-03-28
申请号:CN200810224708.X
申请日:2008-12-09
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种元数据服务系统、元数据同步方法和写服务器更新方法。本发明提供的元数据服务系统,包括:写服务器和读服务器;所述写服务器用于存储并行文件系统中的元数据,接受读访问;以及接受写访问,修改并行文件系统中的元数据,并将修改后的元数据同步更新到读服务器;读服务器,用于存储元数据,接受读访问;以及接受写服务器对元数据的同步更新;还用于当监测到所述写服务器失效时,转换为写服务。本发明通过读服务器和写服务器彼此互为备份,解决单点失效问题,并可满足高效率的大量并发访问需求。
-
公开(公告)号:CN101471845B
公开(公告)日:2011-06-15
申请号:CN200710304714.1
申请日:2007-12-27
Applicant: 中国移动通信集团公司
Abstract: 本发明涉及一种数据块副本数量调整方法及元数据服务器节点,其中方法包括:元数据服务器节点查询一数据块副本的副本调整信息;当所述副本调整信息中设定的副本调整时刻达到时,根据所述副本调整信息中与该副本调整时刻相应的副本调整数对保存在数据块节点中的所述数据块副本的副本数量进行调整。元数据服务器节点包括:元数据处理模块和副本管理模块。通过本发明,可以对响应时间很长或访问频率高的数据块设置更多的副本数量,以提高用户访问这些数据的聚合带宽,从而在保证数据块的可用性及可靠性的同时,提高了系统资源的利用效率。
-
公开(公告)号:CN102054001A
公开(公告)日:2011-05-11
申请号:CN200910236744.2
申请日:2009-10-28
Applicant: 中国移动通信集团公司
IPC: G06F17/30
Abstract: 本发明公开了一种数据挖掘系统中数据预处理的方法、系统及装置,其中,数据预处理对应具有设定执行次序的多个预处理方式,主要技术方案包括:确定数据预处理对应的当前预处理方式;在确定若根据当前预处理方式处理得到的处理结果无需合并并且当前预处理方式不为数据预处理的最后一个预处理方式时,在各操作节点根据当前预处理方式处理待处理数据后,控制各操作节点对得到的处理结果根据当前预处理方式的下一预处理方式进行处理。根据该技术方案,减少了不同节点之间由于待处理数据的读取以及处理结果的写入而需要的传输过程,提高了数据挖掘系统中数据预处理的效率,提高了整个数据挖掘系统的性能。
-
-
-
-
-
-
-
-
-