-
公开(公告)号:US20120047121A1
公开(公告)日:2012-02-23
申请号:US12861788
申请日:2010-08-23
申请人: FABRICE CANEL , JUNAID AHMED , THOMAS FRANCIS MCELROY , WALTER SUN , KUMAR CHELLAPILLA , ABHISHEK SINGH , VISHNU CHALLAM
发明人: FABRICE CANEL , JUNAID AHMED , THOMAS FRANCIS MCELROY , WALTER SUN , KUMAR CHELLAPILLA , ABHISHEK SINGH , VISHNU CHALLAM
IPC分类号: G06F17/30
CPC分类号: G06F17/30864 , G06F17/30109 , G06F17/30336 , G06F17/30867 , G06F17/30899
摘要: A client application installed on end user computers generates metadata from the content of web pages visited by end users and provides the metadata to a search engine. When an end user visits a web page, the end user's computer downloads and displays the web page to the end user. The client application may simultaneously access the web page content and generate this metadata in the form of a content signature of the web page from the web page content. The client application then provides the content signature to a search engine. The search engine may employ content signatures to identify new web pages to crawl and index. Additionally, the search engine may employ content signatures to identify changes to web pages and determine the crawl frequency of web pages.
摘要翻译: 安装在最终用户计算机上的客户端应用程序从最终用户访问的网页的内容生成元数据,并将元数据提供给搜索引擎。 当最终用户访问网页时,最终用户的计算机下载并将该网页显示给最终用户。 客户端应用程序可以同时访问网页内容,并从网页内容以网页的内容签名的形式生成该元数据。 然后,客户应用程序将内容签名提供给搜索引擎。 搜索引擎可以使用内容签名来识别新的网页来爬行和索引。 此外,搜索引擎可以使用内容签名来识别网页的改变并确定网页的爬行频率。