发明授权
- 专利标题: 一种聚焦网络爬虫自适应爬取方法
-
申请号: CN202010434886.6申请日: 2020-05-21
-
公开(公告)号: CN111767482B公开(公告)日: 2023-06-06
- 发明人: 陈芮 , 许鸿文 , 张祥莉
- 申请人: 中国地质大学(武汉)
- 申请人地址: 湖北省武汉市洪山区鲁磨路388号
- 专利权人: 中国地质大学(武汉)
- 当前专利权人: 中国地质大学(武汉)
- 当前专利权人地址: 湖北省武汉市洪山区鲁磨路388号
- 代理机构: 武汉知产时代知识产权代理有限公司
- 代理商 曹雄
- 主分类号: G06F16/955
- IPC分类号: G06F16/955 ; G06F16/951
摘要:
本发明公开了一种聚焦网络爬虫自适应爬取方法,包括以下步骤:使用HTTP库对url库中的url发起请求并运用解析工具解析响应内容;提取页面内的全部文本,将其以HTML标签为分界分段缓存;依次查找待爬取字段;剔除不符合该待获取字段附带条件的文本段;主题关键词集合依次与符合条件的文本内容做主题相关度检测;判断是否存在主题相关度达到阈值的文本,若存在,提取主题相关度最大的文本内容进行存储,若不存在,则爬取下一个字段内容,直到爬取完所有字段;重复上述操作直到爬取完所有目标url。
公开/授权文献
- CN111767482A 一种聚焦网络爬虫自适应爬取方法 公开/授权日:2020-10-13