Invention Grant
- Patent Title: 轻量级智能网页内容解析方法
- Patent Title (English): Light weight intelligent webpage content analysis method
-
Application No.: CN201010126329.4Application Date: 2010-03-18
-
Publication No.: CN101819584BPublication Date: 2011-11-09
- Inventor: 不公告发明人
- Applicant: 上海引跑信息科技有限公司
- Applicant Address: 上海市浦东新区蔡伦路1690号2号楼303室
- Assignee: 上海引跑信息科技有限公司
- Current Assignee: 江苏引跑网络科技有限公司
- Current Assignee Address: 211106 江苏省南京市江宁区将军大道37号1号楼3层
- Main IPC: G06F17/30
- IPC: G06F17/30
Abstract:
本发明为网页内容解析提供了一种通用的轻量级智能解析方法,可以对文章类(如新闻、博客、论坛等)网页进行有效的内容解析。步骤如下:首先,下载网页HTML源码并将其转换成结构化数据模型;其次,分析结构化数据模型,收集用于定位主体内容的数据;再次,利用收集的数据,对数据模型进行进一步分析,定位主体内容(如新闻内容、博客文章、论坛主题和回复等)所在的位置;最终,分析获取的主体内容模型,去除无用信息,得到主体内容。此外,通过交互式界面,用户可对解析结果进行合并、编辑、保存、索引,相当于为用户建立了网页内容资料库,供后期的检索使用。这种方式,有效的将分析技术、存在特性、人工干预加以结合,提供更加贴近用户的功能。
Public/Granted literature
- CN101819584A 轻量级智能网页内容解析方法 Public/Granted day:2010-09-01
Information query