基于文本标签特征挖掘的网页正文提取方法

    公开(公告)号:CN106339455B

    公开(公告)日:2019-06-04

    申请号:CN201610729817.1

    申请日:2016-08-26

    IPC分类号: G06F16/957

    摘要: 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘,运用层次聚类算法对网页标签进行聚类,提取出正文标签所在的簇,再根据经验对标签簇内的标签进行调整,再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言,具有更好的通用性、高准确率、易用性,不用针对特定网页做任何特殊设定。

    基于流行为特征的IDC识别方法

    公开(公告)号:CN107592222A

    公开(公告)日:2018-01-16

    申请号:CN201710811844.8

    申请日:2017-09-11

    IPC分类号: H04L12/24

    摘要: 本发明公开了一种基于流行为特征的IDC识别方法。其包括基于网络流特征的服务器IP识别和基于IP社团检测的IDC识别。本发明利用机器学习算法识别IDC服务器IP地址,再利用社团划分算法,将所得的服务器IP地址进行社团划分,得到IDC网络分布,实现IDC识别,使得用户能够通过网络流行为特征识别出IDC,进而研究IDC之间的关系和布局,最终有助于IDC的资源优化。

    基于文本标签特征挖掘的网页正文提取方法

    公开(公告)号:CN106339455A

    公开(公告)日:2017-01-18

    申请号:CN201610729817.1

    申请日:2016-08-26

    IPC分类号: G06F17/30

    CPC分类号: G06F16/9577

    摘要: 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法,包括以下步骤:S1、进行网页标签预处理及Html标签修复;S2、Html标签特征选择及提取;S3、标签特征聚类挖掘及正文簇选择;S4、正文簇内标签经验性调整;S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘,运用层次聚类算法对网页标签进行聚类,提取出正文标签所在的簇,再根据经验对标签簇内的标签进行调整,再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言,具有更好的通用性、高准确率、易用性,不用针对特定网页做任何特殊设定。