- 专利标题: 提取网页页面目标信息的方法、电子设备和介质
-
申请号: CN202110207419.4申请日: 2021-02-25
-
公开(公告)号: CN112559929B公开(公告)日: 2021-05-07
- 发明人: 张景龙 , 王殿胜 , 张乃钊 , 薄满辉 , 翟性国 , 唐红武 , 卞磊 , 刘宇 , 姚远
- 申请人: 中航信移动科技有限公司
- 申请人地址: 北京市朝阳区惠新东街4号富盛大厦1座4层
- 专利权人: 中航信移动科技有限公司
- 当前专利权人: 中航信移动科技有限公司
- 当前专利权人地址: 北京市朝阳区惠新东街4号富盛大厦1座4层
- 代理机构: 北京锺维联合知识产权代理有限公司
- 代理商 丁慧玲
- 主分类号: G06F16/957
- IPC分类号: G06F16/957 ; G06F16/31
摘要:
本发明涉及一种提取网页页面目标信息的方法、电子设备和介质,方法包括步骤S1、获取待提取网页页面的HTML代码,并构建树形结构;步骤S2、遍历所述树形结构,获取标题节点文本数据,并获取每一内容节点的特征信息;步骤S3、基于所有内容节点的路径信息将所有内容节点分组;步骤S4、根据标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;步骤S5、将目标分组的内容节点作为待分析节点,判断待分析节点中是否包括目标信息,若是,则从待分析节点中获取目标信息,否则,将待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到目标信息。本发明提高了网页页面目标信息提取的准确度和效率。
公开/授权文献
- CN112559929A 提取网页页面目标信息的方法、电子设备和介质 公开/授权日:2021-03-26