发明公开
- 专利标题: 用于使用自适应阈限计算的网页分割的系统和方法
- 专利标题(英): System and method for web page segmentation using adaptive threshold computation
-
申请号: CN201080066847.X申请日: 2010-05-19
-
公开(公告)号: CN102893277A公开(公告)日: 2013-01-23
- 发明人: L-W.郑 , J-M.金 , S.H.林 , Y.熊 , J.J.刘
- 申请人: 惠普发展公司 , 有限责任合伙企业
- 申请人地址: 美国德克萨斯州
- 专利权人: 惠普发展公司,有限责任合伙企业
- 当前专利权人: 惠普发展公司,有限责任合伙企业
- 当前专利权人地址: 美国德克萨斯州
- 代理机构: 中国专利代理(香港)有限公司
- 代理商 马红梅; 卢江
- 国际申请: PCT/CN2010/072910 2010.05.19
- 国际公布: WO2011/143814 EN 2011.11.24
- 进入国家日期: 2012-11-19
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
公开了一种用于自适应阈限网页分割的系统和方法。在一个实施例中,由具有一个或多个处理器的物理计算系统执行的、用于分割包括多个节点的网页的方法包括使用物理计算系统把网页中的内容解析为多个节点,使用物理计算系统获得每对节点之间的特征值,使用物理计算系统使用所获得的特征值来估计自适应阈限值,以及通过比较与每对节点相关联的特征值和所估计的自适应阈限值来对网页进行分割。