一种网页重复的判断系统及其判断方法

    公开(公告)号:CN102622365A

    公开(公告)日:2012-08-01

    申请号:CN201110031636.9

    申请日:2011-01-28

    Inventor: 吴一璞

    Abstract: 本发明公开了一种网页重复的判断系统及其判断方法。该判断方法包括:获取多个网页;分别提取网页的网页正文;从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;根据网页正文句子签名对多个网页进行聚类;针对每一类下的网页,计算网页的附加签名;根据附加签名判断每一类下的网页是否重复。通过上述方式,本发明提供的网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。

    一种网页中的块重要性计算方法及系统

    公开(公告)号:CN103970749B

    公开(公告)日:2017-08-25

    申请号:CN201310029651.9

    申请日:2013-01-25

    Abstract: 本发明公开了一种网页中的块重要性计算方法,包括以下步骤:提供第一网页,第一网页包括多个区域块;对第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对多个特定区域和多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将多个区域块进行分类;根据每个特定区域的重要性等级得到与之对应的分类结果中多个区域块的重要性等级。根据本发明的实施例,具有块重要性等级计算精度高、准确的优点。本发明还提出了一种网页中块重要性计算系统。

    一种网页重复的判断系统及其判断方法

    公开(公告)号:CN102622365B

    公开(公告)日:2015-04-29

    申请号:CN201110031636.9

    申请日:2011-01-28

    Inventor: 吴一璞

    Abstract: 本发明公开了一种网页重复的判断系统及其判断方法。该判断方法包括:获取多个网页;分别提取网页的网页正文;从网页正文中提取一个或多个句子,并根据一个或多个句子计算网页正文句子签名;根据网页正文句子签名对多个网页进行聚类;针对每一类下的网页,计算网页的附加签名;根据附加签名判断每一类下的网页是否重复。通过上述方式,本发明提供的网页重复的判断系统及其判断方法通过包括网页正文句子签名在内的多维度签名有效且快速地判断网页是否重复。

    一种网页中的块重要性计算方法及系统

    公开(公告)号:CN103970749A

    公开(公告)日:2014-08-06

    申请号:CN201310029651.9

    申请日:2013-01-25

    CPC classification number: G06F17/30861 G06F17/2785

    Abstract: 本发明公开了一种网页中的块重要性计算方法,包括以下步骤:提供第一网页,第一网页包括多个区域块;对第一网页进行解析以得到具有不同重要性等级的多个特定区域;分别对多个特定区域和多个区域块进行语义分析;根据每个区域块和每个特定区域之间的语义相似度将多个区域块进行分类;根据每个特定区域的重要性等级得到与之对应的分类结果中多个区域块的重要性等级。根据本发明的实施例,具有块重要性等级计算精度高、准确的优点。本发明还提出了一种网页中块重要性计算系统。

    一种网页信息抽取方法及系统

    公开(公告)号:CN102681994B

    公开(公告)日:2014-03-12

    申请号:CN201110053892.8

    申请日:2011-03-07

    Inventor: 吴一璞

    Abstract: 本发明公开了一种网页信息抽取方法及系统,该网页信息抽取方法,其特征在于,网页信息抽取方法包括:a.获取网页,并对网页按站点进行分类,分为多个大类,每个大类对应至少一个站点。b.根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类,将每个大类分为多个小类,每个小类对应于一种模板。c.提取小类中网页的网页特征,将网页特征映射到小类所对应的模板的网页关系集合中,使网页特征与网页关系集合的节点一一对应。d.对网页关系集合的每个节点进行属性标注。e.进行数据提取,将所提取的数据与网页关系集合的节点相关联。通过上述方式,本发明的网页信息抽取方法及系统由系统自动配置模板,能够处理大量网站网页并且自动抽取网页信息。

    一种网页信息抽取方法及系统

    公开(公告)号:CN102681994A

    公开(公告)日:2012-09-19

    申请号:CN201110053892.8

    申请日:2011-03-07

    Inventor: 吴一璞

    Abstract: 本发明公开了一种网页信息抽取方法及系统,该网页信息抽取方法,其特征在于,网页信息抽取方法包括:a.获取网页,并对网页按站点进行分类,分为多个大类,每个大类对应至少一个站点。b.根据网页的页面布局,按照不同种类的模板对大类中的网页进行分类,将每个大类分为多个小类,每个小类对应于一种模板。c.提取小类中网页的网页特征,将网页特征映射到小类所对应的模板的网页关系集合中,使网页特征与网页关系集合的节点一一对应。d.对网页关系集合的每个节点进行属性标注。e.进行数据提取,将所提取的数据与网页关系集合的节点相关联。通过上述方式,本发明的网页信息抽取方法及系统由系统自动配置模板,能够处理大量网站网页并且自动抽取网页信息。

Patent Agency Ranking