一种网站站点地图自动重构的方法及系统
摘要:
本发明提供了一种网站站点地图自动重构的方法,该方法具体包括以下步骤:S1、网站网页采集;S2、对每个采集到的网页,进行数字化标识提取,得到每个网页的唯一数字标识DOM_ID,并以键值对 的方式保存进行归类保存,得到网站网页信息集合MAP;S3、对网站网页信息集合MAP利用判定规则进行统计分析,确定网站的栏目对象列表COLUMNs;S4、对步骤S3确定的栏目对象列表COLUMNs,通过栏目的上下级关系来重构栏目树,得到完整的站点地图。另外,本发明还提供了一种网站站点地图自动重构的系统。通过本发明的技术方案自动构建网站的站点地图,能够使得爬虫能够对网站重点栏目页进行及时全面的采集,从而用更少的资源采集更多的文章,提高网站的SEO友好性,为网站带来更多用户。
公开/授权文献
0/0