- 专利标题: 基于聚集文本密度的网页正文提取方法及装置
- 专利标题(英): Aggregated text density based webpage body text extraction method and apparatus
-
申请号: CN201610050995.1申请日: 2016-01-26
-
公开(公告)号: CN105740355A公开(公告)日: 2016-07-06
- 发明人: 刘忠 , 陈发君 , 黄金才 , 朱承 , 修保新 , 程光权 , 陈超 , 冯旸赫
- 申请人: 中国人民解放军国防科学技术大学
- 申请人地址: 湖南省长沙市开福区德雅路109号
- 专利权人: 中国人民解放军国防科学技术大学
- 当前专利权人: 中国人民解放军国防科学技术大学
- 当前专利权人地址: 湖南省长沙市开福区德雅路109号
- 代理机构: 北京中济纬天专利代理有限公司
- 代理商 陈立新
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明提供一种基于聚集文本密度的网页正文提取方法及装置,该方法根据标签分隔网页HTML的方法,对网页文本内容进行分割,从而有效将其中的各类文本分开。无需定制特殊的网站提取规则,通用性强;无需使用复杂的文本挖掘手段,该方法简单高效,对各类网页正文提取准确高效。
公开/授权文献
- CN105740355B 基于聚集文本密度的网页正文提取方法及装置 公开/授权日:2019-03-26