一种基于网页特征的正文信息抽取方法
摘要:
本发明涉及信息抽取技术领域,尤其涉及一种基于网页特征的正文信息抽取方法,它根据页面布局等特征将页面源码预处理行号和文本的集合,然后通过行文本阈值以及行间距阈值来提取页面正文部分,最后根据标点符号来优化提取结果。本方法对于不同类型的页面有较好的效果,具有一定的通用性。
0/0