提取网页页面目标信息的方法、电子设备和介质
摘要:
本发明涉及一种提取网页页面目标信息的方法、电子设备和介质,方法包括步骤S1、获取待提取网页页面的HTML代码,并构建树形结构;步骤S2、遍历所述树形结构,获取标题节点文本数据,并获取每一内容节点的特征信息;步骤S3、基于所有内容节点的路径信息将所有内容节点分组;步骤S4、根据标题节点文本数据和每一分组中的内容节点的特征信息从分组中确定目标分组;步骤S5、将目标分组的内容节点作为待分析节点,判断待分析节点中是否包括目标信息,若是,则从待分析节点中获取目标信息,否则,将待分析节点的父节点和待分析节点的父节点连接的分组节点升格为待分析节点,直至获取到目标信息。本发明提高了网页页面目标信息提取的准确度和效率。
0/0