网页正文内容提取方法及装置

    公开(公告)号:CN102541874B

    公开(公告)日:2013-11-06

    申请号:CN201010591506.6

    申请日:2010-12-16

    Abstract: 本发明公开了一种网页正文内容提取方法及装置,该方法包括步骤:获得归属于同一站点下相同层级目录的两个网页;针对获得的每个网页,分别执行:将该网页划分成各内容块;确定划分出的每个内容块的标签密度和/或链接密度;并选择出标签密度和/或链接密度满足对应预设条件的内容块;在选择出的各内容块中,提取出文本内容和另一网页中选择出的各内容块的文本内容均不一致的内容块;将提取出的内容块,确定为该网页的正文内容。采用本发明技术方案,解决了现有技术中存在的提取网页正文内容的准确性较低的问题。

    网页正文内容提取方法及装置

    公开(公告)号:CN102541874A

    公开(公告)日:2012-07-04

    申请号:CN201010591506.6

    申请日:2010-12-16

    Abstract: 本发明公开了一种网页正文内容提取方法及装置,该方法包括步骤:获得归属于同一站点下相同层级目录的两个网页;针对获得的每个网页,分别执行:将该网页划分成各内容块;确定划分出的每个内容块的标签密度和/或链接密度;并选择出标签密度和/或链接密度满足对应预设条件的内容块;在选择出的各内容块中,提取出文本内容和另一网页中选择出的各内容块的文本内容均不一致的内容块;将提取出的内容块,确定为该网页的正文内容。采用本发明技术方案,解决了现有技术中存在的提取网页正文内容的准确性较低的问题。

Patent Agency Ranking