发明授权
- 专利标题: 一种中文网页主题内容的提取方法
- 专利标题(英): Method for extracting subject content of Chinese webpage
-
申请号: CN201110090737.3申请日: 2011-04-12
-
公开(公告)号: CN102156737B公开(公告)日: 2013-03-20
- 发明人: 刘清堂 , 邵明博 , 向丹丹 , 吴林静
- 申请人: 华中师范大学
- 申请人地址: 湖北省武汉市武昌区珞瑜路152号
- 专利权人: 华中师范大学
- 当前专利权人: 华中师范大学
- 当前专利权人地址: 湖北省武汉市武昌区珞瑜路152号
- 代理机构: 武汉天力专利事务所
- 代理商 吴晓颖; 冯卫平
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明属于计算机应用和信息抽取领域,提供一种中文网页的主题内容提取方法,该方法是将网页数据转换成DOM对象后,在对其进行融合,分类,过滤操作,最后返回提取的网页内容。本发明操作方便,适用范围广,既不依附于特定的软、硬件,也不依赖于特定的网页模版;大量实验结果表明,本方法针对不同风格的中文新闻网页,能有效的排除页面中的“噪声”信息,提取主题内容,具有较高的实用性。
公开/授权文献
- CN102156737A 一种中文网页主题内容的提取方法 公开/授权日:2011-08-17