一种聚焦网络爬虫自适应爬取方法

发明授权

请登陆查看更多内容

专利标题： 一种聚焦网络爬虫自适应爬取方法
申请号： CN202010434886.6

申请日： 2020-05-21
公开(公告)号： CN111767482B

公开(公告)日： 2023-06-06
发明人: 陈芮 , 许鸿文 , 张祥莉
申请人： 中国地质大学(武汉)
申请人地址： 湖北省武汉市洪山区鲁磨路388号
专利权人： 中国地质大学(武汉)
当前专利权人： 中国地质大学(武汉)
当前专利权人地址： 湖北省武汉市洪山区鲁磨路388号
代理机构： 武汉知产时代知识产权代理有限公司
代理商 曹雄
主分类号： G06F16/955
IPC分类号： G06F16/955 ; G06F16/951

摘要：

本发明公开了一种聚焦网络爬虫自适应爬取方法，包括以下步骤：使用HTTP库对url库中的url发起请求并运用解析工具解析响应内容；提取页面内的全部文本，将其以HTML标签为分界分段缓存；依次查找待爬取字段；剔除不符合该待获取字段附带条件的文本段；主题关键词集合依次与符合条件的文本内容做主题相关度检测；判断是否存在主题相关度达到阈值的文本，若存在，提取主题相关度最大的文本内容进行存储，若不存在，则爬取下一个字段内容，直到爬取完所有字段；重复上述操作直到爬取完所有目标url。

公开/授权文献

CN111767482A 一种聚焦网络爬虫自适应爬取方法公开/授权日：2020-10-13

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/90	.•与检索数据类型无关的数据库功能
G06F16/95	..••从网上检索
G06F16/955	...•••通过利用信息标识符，例如：将URL按特殊标记编码，浏览历史