-
公开(公告)号:CN106339455A
公开(公告)日:2017-01-18
申请号:CN201610729817.1
申请日:2016-08-26
申请人: 电子科技大学
IPC分类号: G06F17/30
CPC分类号: G06F16/9577
摘要: 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘,运用层次聚类算法对网页标签进行聚类,提取出正文标签所在的簇,再根据经验对标签簇内的标签进行调整,再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言,具有更好的通用性、高准确率、易用性,不用针对特定网页做任何特殊设定。
-
公开(公告)号:CN107577783A
公开(公告)日:2018-01-12
申请号:CN201710830492.0
申请日:2017-09-15
申请人: 电子科技大学
IPC分类号: G06F17/30
摘要: 本发明公开了一种基于Web结构特征挖掘的网页类型自动识别方法,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。本发明在提取网页特征集之前,采用深度优先遍历搜索策略搜寻需要清除的噪声标签,减轻了网页的体积,减少了待处理标签的数量,提高了提取网页特征集的性能;通过对Web结构的挖掘,从与网页结构息息相关的四个方面提取HTML文档的特征集,再运用机器学习中分类算法构造分类器完成网页类型的自动识别,与其他网页类型识别方法相比而言,本发明具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点。
-
公开(公告)号:CN106339455B
公开(公告)日:2019-06-04
申请号:CN201610729817.1
申请日:2016-08-26
申请人: 电子科技大学
IPC分类号: G06F16/957
摘要: 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘,运用层次聚类算法对网页标签进行聚类,提取出正文标签所在的簇,再根据经验对标签簇内的标签进行调整,再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言,具有更好的通用性、高准确率、易用性,不用针对特定网页做任何特殊设定。
-
-