Invention Grant
- Patent Title: 融合DOM拓扑和文本属性的产品URL自动定位方法
-
Application No.: CN202011099728.6Application Date: 2020-10-13
-
Publication No.: CN112199613BPublication Date: 2023-03-03
- Inventor: 潘丽敏 , 郜森 , 罗森林 , 吴舟婷 , 周妍汝 , 董勃
- Applicant: 北京理工大学
- Applicant Address: 北京市海淀区中关村南大街5号
- Assignee: 北京理工大学
- Current Assignee: 北京理工大学
- Current Assignee Address: 北京市海淀区中关村南大街5号
- Main IPC: G06F16/955
- IPC: G06F16/955 ; G06F16/951 ; G06F40/14 ; G06F16/35

Abstract:
本发明涉及融合DOM拓扑和文本属性的产品URL自动定位方法,属于计算机与信息科学技术领域。本发明首先将网站转成DOM解析树结构,获取DOM解析树下各节点的文本属性并给节点添加标签属性;然后通过递归遍历DOM标签树,构建出节点带有产品标签属性的树形图,将树形图转换为包含DOM解析树拓扑结构的节点向量集w;并通过doc2vec将各节点下的文本属性转换成文本向量h;最后用学习到的融合DOM拓扑信息的节点向量、文本向量[w,h]结合标签属性,训练节点分类模型,完成URL自动定位。本发明融合DOM拓扑、文本属性,在现有方法的基础上自动学习页面的提取规则,提高方法的自适应能力,有效的解决了现有方法鲁棒性差、准确率低、工作量大的缺点,具有较高的实用价值和社会价值。
Public/Granted literature
- CN112199613A 融合DOM拓扑和文本属性的产品URL自动定位方法 Public/Granted day:2021-01-08
Information query