基于文本标签特征挖掘的网页正文提取方法

    公开(公告)号:CN106339455A

    公开(公告)日:2017-01-18

    申请号:CN201610729817.1

    申请日:2016-08-26

    IPC分类号: G06F17/30

    CPC分类号: G06F16/9577

    摘要: 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘,运用层次聚类算法对网页标签进行聚类,提取出正文标签所在的簇,再根据经验对标签簇内的标签进行调整,再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言,具有更好的通用性、高准确率、易用性,不用针对特定网页做任何特殊设定。

    基于Web结构特征挖掘的网页类型自动识别方法

    公开(公告)号:CN107577783A

    公开(公告)日:2018-01-12

    申请号:CN201710830492.0

    申请日:2017-09-15

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于Web结构特征挖掘的网页类型自动识别方法,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。本发明在提取网页特征集之前,采用深度优先遍历搜索策略搜寻需要清除的噪声标签,减轻了网页的体积,减少了待处理标签的数量,提高了提取网页特征集的性能;通过对Web结构的挖掘,从与网页结构息息相关的四个方面提取HTML文档的特征集,再运用机器学习中分类算法构造分类器完成网页类型的自动识别,与其他网页类型识别方法相比而言,本发明具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点。

    基于文本标签特征挖掘的网页正文提取方法

    公开(公告)号:CN106339455B

    公开(公告)日:2019-06-04

    申请号:CN201610729817.1

    申请日:2016-08-26

    IPC分类号: G06F16/957

    摘要: 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘,运用层次聚类算法对网页标签进行聚类,提取出正文标签所在的簇,再根据经验对标签簇内的标签进行调整,再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言,具有更好的通用性、高准确率、易用性,不用针对特定网页做任何特殊设定。