-
公开(公告)号:CN104580536A
公开(公告)日:2015-04-29
申请号:CN201510064916.8
申请日:2015-02-06
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L29/08
CPC classification number: H04L67/1002 , H04L67/1008
Abstract: 本发明公开一种元数据集群负载平衡实现方法,涉及计算机存储技术,在集群文件系统中实现多个元数据服务器,通过定时同步各元数据服务器上元数据负载信息,将元数据负载较大的服务器的负载自动分配给压力小的元数据服务器,进行元数据服务器之间的负载平衡;该方法主要由元数据负载统计模块、元数据集群负载平衡模块两部分组成。通过该方法能有效的提高文件系统元数据性能,解决了小文件存储性能问题,实现了元数据集群的负载平衡。
-
公开(公告)号:CN104270402A
公开(公告)日:2015-01-07
申请号:CN201410420267.6
申请日:2014-08-25
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L29/08 , H04L12/803 , G06F3/06
CPC classification number: H04L67/1002 , H04L67/1097
Abstract: 本发明公开一种异构集群存储自适应数据负载的方法,属于计算机系统存储领域;具体步骤为:①基本的负载的均衡,在系统初建时,根据节点的最大负载能力,将数据分布在集群的各个节点上;②自适应分布式的增量负载的均衡,在系统运行时,实时地收集各个节点资源占用情况,自适应地、动态地调整数据分布情况;③采用基于权重的hash方法,在系统初建时将数据的负载大小视为相同,把异构服务器的性能作为权重,在集群之间均衡地分布数据负载;本发明适用于在高压力、高并发读写、多用户、异构的大规模分布式存储系统可以处理异构的数据负载,自适应地根据负载调整其在服务器之间的分布。
-
公开(公告)号:CN103902684B
公开(公告)日:2018-02-23
申请号:CN201410111764.8
申请日:2014-03-25
Applicant: 浪潮电子信息产业股份有限公司
Inventor: 程瑶
IPC: G06F17/30
Abstract: 本发明公开了一种爬虫采集内容结构化的方法,适用于爬虫对网页的解析阶段,其适用的体系结构包括:爬虫模块、解析模块和结合模块;其中,爬虫模块实现整个数据采集过程,包含结合模块;解析模块是实现网页解析的独立模块;结合模块用于连接爬虫模块和解析模块。该方法利用结合模块把爬虫模块和专业的网页解析模块结合到了一起,在爬虫进行到解析阶段时,会自动调用解析模块的内容;解析完毕后,会继续爬虫模块的剩余流程,将已经结构化完毕的字段提交给搜索引擎。该方法通过把具有网页解析功能的工具与爬虫结合,实现对用户需要字段的自定义解析、自定义提取,使用灵活,可以有效扩展可结构化的字段,扩大后期搜索分析的范围。
-
公开(公告)号:CN103984777A
公开(公告)日:2014-08-13
申请号:CN201410248277.6
申请日:2014-06-06
Applicant: 浪潮电子信息产业股份有限公司
IPC: G06F17/30
CPC classification number: G06F17/30584
Abstract: 本发明公开了一种基于数据库同步的舆情分析系统优化方法,在数据库同步环节对数据进行筛选,通过控制进入舆情分析系统的数据,进行舆情分析系统优化;在采集信息导入舆情分析系统时,在数据同步模块中加入舆情包含词库、舆情排除词库信息,把数据库模块中的信息分词后,先后比对这两个词库中的词汇,若这条信息的词汇里有舆情包含词库词汇且没有舆情排除词库的词汇,则这条信息是舆情信息导入到舆情分析系统里,这样减小了舆情分析系统数据量的压力,提升了分析灵敏度和分析结果的准确性。
-
公开(公告)号:CN103997524A
公开(公告)日:2014-08-20
申请号:CN201410215470.X
申请日:2014-05-21
Applicant: 浪潮电子信息产业股份有限公司
Abstract: 本发明公开了一种高可用、高可扩展、分布式的模块化网络爬虫,提出了一种新型网络爬虫体系结构,该体系结构主要包括:资源模块、网页下载模块、网页分解模块以及事件驱动模块,所述资源模块包括控制模块、网页存储模块和通信模块;该新型网络爬虫体系结构以控制模块为核心,采用事件驱动的编程模型,通过整合网页下载模块、网页分解模块及协调不同机器之间资源的均衡配置,使分布式爬虫体系具有可扩展性和高可用性,很适合用于海量数据的抓取工作,适合用于云计算中心。
-
公开(公告)号:CN103984719A
公开(公告)日:2014-08-13
申请号:CN201410196086.X
申请日:2014-05-12
Applicant: 浪潮电子信息产业股份有限公司
Inventor: 程瑶
CPC classification number: G06F16/951 , H04L63/145
Abstract: 本发明提供一种爬虫模拟登陆采集的方法,其具体实现过程为:设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集。该一种爬虫模拟登陆采集的方法和现有技术相比,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。
-
公开(公告)号:CN103500140A
公开(公告)日:2014-01-08
申请号:CN201310451856.6
申请日:2013-09-27
Applicant: 浪潮电子信息产业股份有限公司
Inventor: 程瑶
Abstract: 本发明提供一种快速获知分布式集群节点失效的方法,属于分布式文件系统领域,包括客户端模块、元数据节点、分布式数据存储节点,客户端模块是访问文件系统的入口,主要是负责用户的数据请求;元数据节点负责存储数据的元数据部分;分布式数据存储节点提供数据存储单元,负责存储数据(去掉元数据之后的数据);告警模块当元数据节点和分布式数据存储节点无法通信时,发出循环告警。本发明能够在调试状态下有效的快速获知节点是否还处于可用状态,从而对已经失效的节点做相应的修理/替换处理,保证文件系统的高可用性。
-
公开(公告)号:CN104580471A
公开(公告)日:2015-04-29
申请号:CN201510013603.X
申请日:2015-01-12
Applicant: 浪潮电子信息产业股份有限公司
Inventor: 程瑶
IPC: H04L29/08
CPC classification number: H04L67/1002
Abstract: 本发明特别涉及一种提升元数据集群性能的方法。该提升元数据集群性能的方法体系包括导出端、导入端和旁观者三部分,所述导出端负责驱动整个导出过程,所述导入端负责配合导出端完成目录迁移,所述旁观者为待导出目录的副本的拥有者;该方法通过在所述导出端手动执行命令方式,将负载较大的元数据节点下的热点目录转移到导入端,并更新旁观者的目录授权信息。该提升元数据集群性能的方法,适用于支持多个元数据节点的分布式集群文件系统,在分布式集群文件系统的某个元数据负载较大时,能够在元数据集群范围内平衡负载,提高元数据集群处理数据的效率,进而有效提升系统性能。
-
公开(公告)号:CN104301442A
公开(公告)日:2015-01-21
申请号:CN201410650458.1
申请日:2014-11-17
Applicant: 浪潮电子信息产业股份有限公司
IPC: H04L29/08
CPC classification number: H04L67/1097 , G06F9/545 , H04L67/2842
Abstract: 本发明公开了一种基于fuse的访问对象存储集群的客户端的实现方法,其具体实现过程为:客户端通过linux提供的fuse内核挂载,在客户端挂载的目录下对远端分布式对象存储系统进行访问,上述客户端分为内核模块和用户态守护进程模块两部分,其中内核模块以fuse为基础,处理用户在挂载目录下的操作形成的系统调用;用户态守护进程负责接收内核递交的系统调用请求,同时处理请求,并将请求返回给系统调用。该一种基于fuse的访问对象存储集群的客户端的实现方法与现有技术相比,极大的提高生产效率,提高集群的高可用性,实用性较强,能够节省人力,适用范围广泛,易于推广。
-
公开(公告)号:CN103902684A
公开(公告)日:2014-07-02
申请号:CN201410111764.8
申请日:2014-03-25
Applicant: 浪潮电子信息产业股份有限公司
Inventor: 程瑶
IPC: G06F17/30
CPC classification number: G06F17/3043
Abstract: 本发明公开了一种爬虫采集内容结构化的方法,适用于爬虫对网页的解析阶段,其适用的体系结构包括:爬虫模块、解析模块和结合模块;其中,爬虫模块实现整个数据采集过程,包含结合模块;解析模块是实现网页解析的独立模块;结合模块用于连接爬虫模块和解析模块。该方法利用结合模块把爬虫模块和专业的网页解析模块结合到了一起,在爬虫进行到解析阶段时,会自动调用解析模块的内容;解析完毕后,会继续爬虫模块的剩余流程,将已经结构化完毕的字段提交给搜索引擎。该方法通过把具有网页解析功能的工具与爬虫结合,实现对用户需要字段的自定义解析、自定义提取,使用灵活,可以有效扩展可结构化的字段,扩大后期搜索分析的范围。
-
-
-
-
-
-
-
-
-