融合DOM拓扑和文本属性的产品URL自动定位方法
摘要:
本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。
公开/授权文献
0/0