-
公开(公告)号:US20110314122A1
公开(公告)日:2011-12-22
申请号:US12817797
申请日:2010-06-17
申请人: Balaji B. Shyamkumar , Puneet Sahni , Harsh Verma
发明人: Balaji B. Shyamkumar , Puneet Sahni , Harsh Verma
IPC分类号: G06F15/16
CPC分类号: G06F17/30864
摘要: Search engines may utilize web crawlers to discover desirable content that may be provided to users as search results. Unfortunately, document providers, such as websites, may return junk web pages and/or maintenance web pages as document results, which may be undesirable for a search engine to provide as search results. Accordingly, document providers may be grouped into provider clusters. Profiles may be assigned to provider clusters, where a profile may comprise parameters representing “expected” parameters historically returned from normal document fetch operations to document providers within the provider cluster. Parameters of a profile for a provider cluster comprising a document provider may be compared with current document fetch parameters of a current document fetch operation. If the parameters of the profile and the current document fetch parameters do not match, then an alert may be generated.
摘要翻译: 搜索引擎可以利用网页抓取器来发现可以作为搜索结果提供给用户的期望内容。 不幸的是,诸如网站的文档提供者可以将垃圾网页和/或维护网页作为文档结果返回,这可能是搜索引擎提供的搜索结果所不希望的。 因此,文档提供者可以被分组成提供商集群。 配置文件可以被分配给提供商集群,其中配置文件可以包括表示从正常文档提取操作返回到提供者集群内的文档提供者的“预期”参数的参数。 可以将包括文档提供者的提供商集群的简档的参数与当前文档提取操作的当前文档获取参数进行比较。 如果配置文件的参数和当前文档提取参数不匹配,则可能会生成警报。
-
公开(公告)号:US08639773B2
公开(公告)日:2014-01-28
申请号:US12817797
申请日:2010-06-17
申请人: Balaji B. Shyamkumar , Puneet Sahni , Harsh Verma
发明人: Balaji B. Shyamkumar , Puneet Sahni , Harsh Verma
IPC分类号: G06F15/16
CPC分类号: G06F17/30864
摘要: Search engines may utilize web crawlers to discover desirable content that may be provided to users as search results. Unfortunately, document providers, such as websites, may return junk web pages and/or maintenance web pages as document results, which may be undesirable for a search engine to provide as search results. Accordingly, document providers may be grouped into provider clusters. Profiles may be assigned to provider clusters, where a profile may comprise parameters representing “expected” parameters historically returned from normal document fetch operations to document providers within the provider cluster. Parameters of a profile for a provider cluster comprising a document provider may be compared with current document fetch parameters of a current document fetch operation. If the parameters of the profile and the current document fetch parameters do not match, then an alert may be generated.
摘要翻译: 搜索引擎可以利用网页抓取器来发现可以作为搜索结果提供给用户的期望内容。 不幸的是,诸如网站的文档提供者可以将垃圾网页和/或维护网页作为文档结果返回,这可能是搜索引擎提供的搜索结果所不希望的。 因此,文档提供者可以被分组成提供商集群。 配置文件可以被分配给提供商集群,其中配置文件可以包括表示从正常文档提取操作返回到提供者集群内的文档提供者的“预期”参数的参数。 可以将包括文档提供者的提供商集群的简档的参数与当前文档提取操作的当前文档获取参数进行比较。 如果配置文件的参数和当前文档提取参数不匹配,则可能会生成警报。
-