DISCREPANCY DETECTION FOR WEB CRAWLING
    1.
    发明申请
    DISCREPANCY DETECTION FOR WEB CRAWLING 有权
    网络破解的分析检测

    公开(公告)号:US20110314122A1

    公开(公告)日:2011-12-22

    申请号:US12817797

    申请日:2010-06-17

    IPC分类号: G06F15/16

    CPC分类号: G06F17/30864

    摘要: Search engines may utilize web crawlers to discover desirable content that may be provided to users as search results. Unfortunately, document providers, such as websites, may return junk web pages and/or maintenance web pages as document results, which may be undesirable for a search engine to provide as search results. Accordingly, document providers may be grouped into provider clusters. Profiles may be assigned to provider clusters, where a profile may comprise parameters representing “expected” parameters historically returned from normal document fetch operations to document providers within the provider cluster. Parameters of a profile for a provider cluster comprising a document provider may be compared with current document fetch parameters of a current document fetch operation. If the parameters of the profile and the current document fetch parameters do not match, then an alert may be generated.

    摘要翻译: 搜索引擎可以利用网页抓取器来发现可以作为搜索结果提供给用户的期望内容。 不幸的是,诸如网站的文档提供者可以将垃圾网页和/或维护网页作为文档结果返回,这可能是搜索引擎提供的搜索结果所不希望的。 因此,文档提供者可以被分组成提供商集群。 配置文件可以被分配给提供商集群,其中配置文件可以包括表示从正常文档提取操作返回到提供者集群内的文档提供者的“预期”参数的参数。 可以将包括文档提供者的提供商集群的简档的参数与当前文档提取操作的当前文档获取参数进行比较。 如果配置文件的参数和当前文档提取参数不匹配,则可能会生成警报。

    Discrepancy detection for web crawling
    2.
    发明授权
    Discrepancy detection for web crawling 有权
    网页爬网差异检测

    公开(公告)号:US08639773B2

    公开(公告)日:2014-01-28

    申请号:US12817797

    申请日:2010-06-17

    IPC分类号: G06F15/16

    CPC分类号: G06F17/30864

    摘要: Search engines may utilize web crawlers to discover desirable content that may be provided to users as search results. Unfortunately, document providers, such as websites, may return junk web pages and/or maintenance web pages as document results, which may be undesirable for a search engine to provide as search results. Accordingly, document providers may be grouped into provider clusters. Profiles may be assigned to provider clusters, where a profile may comprise parameters representing “expected” parameters historically returned from normal document fetch operations to document providers within the provider cluster. Parameters of a profile for a provider cluster comprising a document provider may be compared with current document fetch parameters of a current document fetch operation. If the parameters of the profile and the current document fetch parameters do not match, then an alert may be generated.

    摘要翻译: 搜索引擎可以利用网页抓取器来发现可以作为搜索结果提供给用户的期望内容。 不幸的是,诸如网站的文档提供者可以将垃圾网页和/或维护网页作为文档结果返回,这可能是搜索引擎提供的搜索结果所不希望的。 因此,文档提供者可以被分组成提供商集群。 配置文件可以被分配给提供商集群,其中配置文件可以包括表示从正常文档提取操作返回到提供者集群内的文档提供者的“预期”参数的参数。 可以将包括文档提供者的提供商集群的简档的参数与当前文档提取操作的当前文档获取参数进行比较。 如果配置文件的参数和当前文档提取参数不匹配,则可能会生成警报。