发明公开
- 专利标题: 一种云计算中垂直搜索引擎网页采集模板自动识别方法
- 专利标题(英): Automatic identifying method for webpage collecting template of vertical search engine in cloud computing
-
申请号: CN201410087058.4申请日: 2014-03-11
-
公开(公告)号: CN103870567A公开(公告)日: 2014-06-18
- 发明人: 范莹 , 于治楼 , 梁华勇
- 申请人: 浪潮集团有限公司
- 申请人地址: 山东省济南市高新区舜雅路1036号
- 专利权人: 浪潮集团有限公司
- 当前专利权人: 浪潮集团有限公司
- 当前专利权人地址: 山东省济南市高新区舜雅路1036号
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种云计算中垂直搜索引擎网页采集模板自动识别方法,针对需采集网站随机获取一定数量的样本网页,对已有网页进行分析,抽取特征属性,将属性值采集至数据表中作为训练样本数据进行聚类,得到多个不同的网页模板;给网页模板标识类别,作为训练样本训练出网页模板分类器;应用该分类器对所有采集网页进行模板分类,根据分类得到的模板进行信息抽取。该方法通过对不同网站进行网页抽样,利用数据挖掘的聚类、分类算法,为这些网站内不同的网页结构识别出不同的分析模板,达到智能化解析的目的。