一种聚焦网络爬虫自适应爬取方法
摘要:
本发明公开了一种聚焦网络爬虫自适应爬取方法,包括以下步骤:使用HTTP库对url库中的url发起请求并运用解析工具解析响应内容;提取页面内的全部文本,将其以HTML标签为分界分段缓存;依次查找待爬取字段;剔除不符合该待获取字段附带条件的文本段;主题关键词集合依次与符合条件的文本内容做主题相关度检测;判断是否存在主题相关度达到阈值的文本,若存在,提取主题相关度最大的文本内容进行存储,若不存在,则爬取下一个字段内容,直到爬取完所有字段;重复上述操作直到爬取完所有目标url。
公开/授权文献
0/0