发明授权
- 专利标题: 一种网站站点地图自动重构的方法及系统
-
申请号: CN201810795449.X申请日: 2018-07-20
-
公开(公告)号: CN109063053B公开(公告)日: 2019-07-30
- 发明人: 汪敏 , 刘鹏飞 , 李伦凉 , 李绪祥 , 尹娜
- 申请人: 北京开普云信息科技有限公司 , 开普云信息科技股份有限公司
- 申请人地址: 北京市海淀区知春路26号量子银座601
- 专利权人: 北京开普云信息科技有限公司,开普云信息科技股份有限公司
- 当前专利权人: 北京开普云信息科技有限公司,开普云信息科技股份有限公司
- 当前专利权人地址: 北京市海淀区知春路26号量子银座601
- 主分类号: G06F16/954
- IPC分类号: G06F16/954 ; G06F16/953
摘要:
本发明提供了一种网站站点地图自动重构的方法,该方法具体包括以下步骤:S1、网站网页采集;S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对 的方式保存进行归类保存,得到网站网页信息集合MAP;S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。另外,本发明还提供了一种网站站点地图自动重构的系统。通过本发明的技术方案自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。
公开/授权文献
- CN109063053A 一种网站站点地图自动重构的方法及系统 公开/授权日:2018-12-21