一种基于DOM的网页关键内容抽取方法
摘要:
本发明公开了一种基于DOM的网页关键内容抽取方法,包括以下步骤:根据来自同一网站的模式相同的网页URL1和URL2,下载网页的HTML文本内容,分别保存为HTML1和HTML2,采用DOM树解析技术,将HTML1和HTML2转化为DOM树,记为TREE1和TREE2;定义用于识别TREE1和TREE2中的关键内容的差异度,设计关键内容路径列表Lkeycontent以及约简关键内容路径列表Lreduce;基于差异度定义,设计差异度计算方法,计算TREE1中各节点的差异度,将差异度大于给定差异度阈值e的节点的路径加入Lkeycontent;设计算法对Lkeycontent进行约简,得到Lreduce;基于Lreduce将网页中的关键内容返回给用户。本发明能够在网页关键内容的位置及具体内容均未知的情况下对关键内容进行抽取,具有抽取内容完整、可读性强,抽取信息量大,以及抽取效率高的优点。
公开/授权文献
0/0