发明公开
- 专利标题: 一种分布式爬虫集群中的节点和系统
- 专利标题(英): Distributed-type nodes and distributed-type system in a crawler cluster
-
申请号: CN201310006486.5申请日: 2013-01-08
-
公开(公告)号: CN103067521A公开(公告)日: 2013-04-24
- 发明人: 陈君 , 黄志敏 , 吴京洪 , 王玲芳
- 申请人: 中国科学院声学研究所
- 申请人地址: 北京市海淀区北四环西路21号
- 专利权人: 中国科学院声学研究所
- 当前专利权人: 郑州芯兰德网络科技有限公司
- 当前专利权人地址: 北京市海淀区北四环西路21号
- 代理机构: 北京亿腾知识产权代理事务所
- 代理商 陈霁
- 主分类号: H04L29/08
- IPC分类号: H04L29/08 ; H04L12/803 ; G06F17/30
摘要:
本发明公开了一种基于结构化p2p的去中心化分布式爬虫节点和系统。基于结构化p2p的分布式爬虫集群中的节点包括底层覆盖网,基于p2p组织方式,执行节点间分发url和接收url的协议;爬行模块,基于被分发的url,负责从互联网抓取对应的资源;控制中心,执行分发url和接收url的功能。本发明实施例利用结构化p2p算法kademlia的特点,巧妙地解决了分布式爬虫系统中的去重和负载均衡的问题,实现了系统良好的可拓展性和容错性,可以为大规模分布式的爬虫系统提供通用的设计方法。
公开/授权文献
- CN103067521B 一种分布式爬虫集群中的节点和系统 公开/授权日:2016-08-17