专利检索 ap:("电子科技大学") AND inv:"文友枥" 第 1 页

1.

发明公开
基于文本标签特征挖掘的网页正文提取方法有权

公开(公告)号：CN106339455A

公开(公告)日：2017-01-18

申请号：CN201610729817.1

申请日：2016-08-26

申请人： 电子科技大学

发明人： 于富财 , 文友枥 , 陈西安 , 袁进 , 吴轶铭 , 申洲 , 汪辉 , 鲁才

IPC分类号： G06F17/30

CPC分类号： G06F16/9577

摘要： 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法，包括以下步骤：S1、进行网页标签预处理及Html标签修复；S2、Html标签特征选择及提取；S3、标签特征聚类挖掘及正文簇选择；S4、正文簇内标签经验性调整；S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘，运用层次聚类算法对网页标签进行聚类，提取出正文标签所在的簇，再根据经验对标签簇内的标签进行调整，再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言，具有更好的通用性、高准确率、易用性，不用针对特定网页做任何特殊设定。

2.

发明公开
基于Web结构特征挖掘的网页类型自动识别方法无效

公开(公告)号：CN107577783A

公开(公告)日：2018-01-12

申请号：CN201710830492.0

申请日：2017-09-15

申请人： 电子科技大学

发明人： 于富财 , 汪辉 , 文友枥 , 胡光岷 , 费高雷

IPC分类号： G06F17/30

摘要： 本发明公开了一种基于Web结构特征挖掘的网页类型自动识别方法，包括以下步骤：S1、通过爬虫系统获取网页源码集；S2、对网页源码进行预处理；S3、进行网页特征提取；S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别。本发明在提取网页特征集之前，采用深度优先遍历搜索策略搜寻需要清除的噪声标签，减轻了网页的体积，减少了待处理标签的数量，提高了提取网页特征集的性能；通过对Web结构的挖掘，从与网页结构息息相关的四个方面提取HTML文档的特征集，再运用机器学习中分类算法构造分类器完成网页类型的自动识别，与其他网页类型识别方法相比而言，本发明具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点。

3.

发明授权
基于文本标签特征挖掘的网页正文提取方法有权

公开(公告)号：CN106339455B

公开(公告)日：2019-06-04

申请号：CN201610729817.1

申请日：2016-08-26

申请人： 电子科技大学

发明人： 于富财 , 文友枥 , 陈西安 , 袁进 , 吴轶铭 , 申洲 , 汪辉 , 鲁才

IPC分类号： G06F16/957

摘要： 本发明公开了一种基于文本标签特征挖掘的网页正文提取方法，包括以下步骤：S1、进行网页标签预处理及Html标签修复；S2、Html标签特征选择及提取；S3、标签特征聚类挖掘及正文簇选择；S4、正文簇内标签经验性调整；S5、正文簇标签文本提取。本发明通过对网页源码进行标签挖掘，运用层次聚类算法对网页标签进行聚类，提取出正文标签所在的簇，再根据经验对标签簇内的标签进行调整，再根据调整后的正文簇特征进行文本提取。本方法相对于其他新闻网页文本抽取方法而言，具有更好的通用性、高准确率、易用性，不用针对特定网页做任何特殊设定。