- 专利标题: 融合DOM拓扑和文本属性的产品URL自动定位方法
-
申请号: CN202011099728.6申请日: 2020-10-13
-
公开(公告)号: CN112199613B公开(公告)日: 2023-03-03
- 发明人: 潘丽敏 , 郜森 , 罗森林 , 吴舟婷 , 周妍汝 , 董勃
- 申请人: 北京理工大学
- 申请人地址: 北京市海淀区中关村南大街5号
- 专利权人: 北京理工大学
- 当前专利权人: 北京理工大学
- 当前专利权人地址: 北京市海淀区中关村南大街5号
- 主分类号: G06F16/955
- IPC分类号: G06F16/955 ; G06F16/951 ; G06F40/14 ; G06F16/35
摘要:
本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。
公开/授权文献
- CN112199613A 融合DOM拓扑和文本属性的产品URL自动定位方法 公开/授权日:2021-01-08