发明公开

一种网站信息增量爬取方法
摘要:
本发明公开了一种网站信息增量爬取方法,该方法包括:按照网站数据呈现顺序爬取设定长度的数据,并按照网站数据的呈现顺序放入数据队列,所述数据队列末端设有比较窗口,检查比较窗口内的数据与已爬取数据的重复度,当重复度达到预设值时,停止数据爬取;否则,重复上述过程,直到比较窗口内数据与已爬取数据的重复度达到预设值,停止数据爬取。本发明针对网站信息未严格按照时间排序进行增量爬取时,在可允许的漏爬率情况下,降低了爬取消耗。在工作流程中,可动态调整“数据爬取的设定长度”和“数据队列长度”大小,提高算法工作效率,满足不同的漏爬率及爬取损耗需求。
公开/授权文献
0/0