-
公开(公告)号:CN104699757A
公开(公告)日:2015-06-10
申请号:CN201510020854.0
申请日:2015-01-15
申请人: 南京邮电大学
IPC分类号: G06F17/30
CPC分类号: G06F16/951 , G06F16/182 , G06F16/9566 , G06F16/958
摘要: 本发明提供了云环境下分布式网络信息采集方法。其主要包括:对于页面信息的采集,采用星型的分布式采集模型,页面信息采集服务器只负责通过异步的方式采集相关网页的页面信息,并将最终的采集结果返回给云服务器,页面信息的处理则在云端进行;关于待采集的URL的分配方式,云服务器根据不同的采集服务器的历史采集效率,动态地为不同的页面采集服务器分配不同的任务个数,从而尽可能地使各个页面采集服务器达到负载均衡的效果。本发明提出的分布式网络信息采集方法,对于通用网络爬虫和主题网络爬虫都适用,可以很好地提高网络爬虫的爬行效率以及解决在分布式环境中网络爬虫的负载均衡问题。
-
公开(公告)号:CN105824956A
公开(公告)日:2016-08-03
申请号:CN201610192878.9
申请日:2016-03-30
申请人: 南京邮电大学
CPC分类号: G06F16/316 , G06F16/951 , G06F17/211 , G06F17/277
摘要: 本发明公开了一种基于链表结构的倒排索引模型及其构建方法。在倒排索引模型的基础上,通过在关键词节点中增加指向邻接关键词节点的指针,从而形成一个支持高效的短语查询、快速的索引构建以及较小的索引空间的消耗的索引模型。在基于链表结构的倒排索引模型的基础上,进一步给出了索引构建的方法。本发明提出的基于链表的倒排索引模型可以实现文本索引的快速构建,并且支持短语关键词的快速查询。
-
公开(公告)号:CN104699757B
公开(公告)日:2018-03-13
申请号:CN201510020854.0
申请日:2015-01-15
申请人: 南京邮电大学
IPC分类号: G06F17/30
摘要: 本发明提供了云环境下分布式网络信息采集方法。其主要包括:对于页面信息的采集,采用星型的分布式采集模型,页面信息采集服务器只负责通过异步的方式采集相关网页的页面信息,并将最终的采集结果返回给云服务器,页面信息的处理则在云端进行;关于待采集的URL的分配方式,云服务器根据不同的采集服务器的历史采集效率,动态地为不同的页面采集服务器分配不同的任务个数,从而尽可能地使各个页面采集服务器达到负载均衡的效果。本发明提出的分布式网络信息采集方法,对于通用网络爬虫和主题网络爬虫都适用,可以很好地提高网络爬虫的爬行效率以及解决在分布式环境中网络爬虫的负载均衡问题。
-
-