-
公开(公告)号:US08473574B2
公开(公告)日:2013-06-25
申请号:US12783620
申请日:2010-05-20
申请人: Xiao Kong , Shouqiu Yu , Wei Wang , Jiang-Ming Yang , Rui Cai , Haifeng Li , Xiaosong Yang
发明人: Xiao Kong , Shouqiu Yu , Wei Wang , Jiang-Ming Yang , Rui Cai , Haifeng Li , Xiaosong Yang
CPC分类号: G06F17/30781 , G06F17/30864
摘要: A classifier may be integrated into a pipeline of a general web crawler. The classifier may classify crawled webpages as either video pages or non-video pages. Video pages and information regarding domain importance may be aggregated. Ones of the domains of the video pages may be selected based on domain importance rankings. Webpages of the selected domains may be randomly sampled. The sampled webpages may be structurally analyzed and hint information may be generated with respect to each of the selected domains. The hint information may guide a deep crawling operation for discovering all video pages within the selected domains. Video links within the video pages may be found, one or more videos may be downloaded, and one or more representations of the one or more videos may be indexed.
摘要翻译: 分类器可以集成到通用网络爬虫的流水线中。 分类器可以将抓取的网页分类为视频页面或非视频页面。 视频页面和关于域重要性的信息可以被聚合。 可以基于域重要性排名来选择视频页面的域。 所选域的网页可以是随机抽样的。 可以对采样的网页进行结构分析,并且可以针对每个所选择的域生成提示信息。 提示信息可能会指导深入抓取操作,以发现所选域中的所有视频页面。 视频页面中的视频链接可以被发现,可以下载一个或多个视频,并且可以对一个或多个视频的一个或多个表示进行索引。
-
公开(公告)号:US20110289182A1
公开(公告)日:2011-11-24
申请号:US12783620
申请日:2010-05-20
申请人: Xiao Kong , Shouqiu Yu , Wei Wang , Jiang-Ming Yang , Rui Cai , Haifeng Li , Xiaosong Yang
发明人: Xiao Kong , Shouqiu Yu , Wei Wang , Jiang-Ming Yang , Rui Cai , Haifeng Li , Xiaosong Yang
CPC分类号: G06F17/30781 , G06F17/30864
摘要: A classifier may be integrated into a pipeline of a general web crawler. The classifier may classify crawled webpages as either video pages or non-video pages. Video pages and information regarding domain importance may be aggregated. Ones of the domains of the video pages may be selected based on domain importance rankings. Webpages of the selected domains may be randomly sampled. The sampled webpages may be structurally analyzed and hint information may be generated with respect to each of the selected domains. The hint information may guide a deep crawling operation for discovering all video pages within the selected domains. Video links within the video pages may be found, one or more videos may be downloaded, and one or more representations of the one or more videos may be indexed.
摘要翻译: 分类器可以集成到通用网络爬虫的管道中。 分类器可以将抓取的网页分类为视频页面或非视频页面。 视频页面和关于域重要性的信息可以被聚合。 可以基于域重要性排名来选择视频页面的域。 所选域的网页可以是随机抽样的。 可以对采样的网页进行结构分析,并且可以针对每个所选择的域生成提示信息。 提示信息可能会指导深入抓取操作,以发现所选域中的所有视频页面。 视频页面中的视频链接可以被发现,可以下载一个或多个视频,并且可以对一个或多个视频的一个或多个表示进行索引。
-