发明公开
CN105975547A 基于内容与位置特征的近似web文档检测方法
失效 - 权利终止
- 专利标题: 基于内容与位置特征的近似web文档检测方法
- 专利标题(英): Approximate web document detection method based on content and position features
-
申请号: CN201610283628.6申请日: 2016-04-29
-
公开(公告)号: CN105975547A公开(公告)日: 2016-09-28
- 发明人: 李石君 , 吴岳廷 , 张健 , 余伟 , 李宇轩
- 申请人: 武汉大学
- 申请人地址: 湖北省武汉市武昌区珞珈山武汉大学
- 专利权人: 武汉大学
- 当前专利权人: 武汉大学
- 当前专利权人地址: 湖北省武汉市武昌区珞珈山武汉大学
- 代理机构: 武汉科皓知识产权代理事务所
- 代理商 张火春
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06K9/62
摘要:
本发明提供一种基于内容与位置特征的近似web文档检测方法,本发明在计算网页特征前对页面内噪音信息进行了剔除处理,所以能够有效降低页面内噪音内容对近似web文档检测过程的影响;在对页面文本进行重点分析的基础上,结合关键概念在网页正文中的分布特点与位置特征进行对比,提高了近似页面检测的精度;本发明充分利用了海量数据中索引机制与检索系统的优点,使用倒排索引作为页面中关键词项向量和位置特征向量的存储和访问媒介,提高了方法执行的效率与可行性;本发明将页面内容与位置特征向量作为近似页面判断的依据,较大地降低了对相关语料库与概念语义网的依赖,增强了方法的适用性,并以此拓宽web文档近似检测的范围。
公开/授权文献
- CN105975547B 基于内容与位置特征的近似web文档检测方法 公开/授权日:2019-06-25