发明授权
CN102495861B 一种网络爬虫识别系统及方法
失效 - 权利终止
- 专利标题: 一种网络爬虫识别系统及方法
- 专利标题(英): System and method for identifying web crawler
-
申请号: CN201110378160.6申请日: 2011-11-24
-
公开(公告)号: CN102495861B公开(公告)日: 2013-09-04
- 发明人: 肖军 , 张永铮 , 云晓春
- 申请人: 中国科学院计算技术研究所
- 申请人地址: 北京市海淀区中关村科学院南路6号
- 专利权人: 中国科学院计算技术研究所
- 当前专利权人: 中国科学院计算技术研究所
- 当前专利权人地址: 北京市海淀区中关村科学院南路6号
- 代理机构: 北京律诚同业知识产权代理有限公司
- 代理商 梁挥; 祁建国
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明涉及一种网络爬虫识别系统及方法,其特征在于,包括:缓冲模块,用于保存进入系统的请求,在系统开始运行时,所述请求发送至训练模块,在训练时间结束,该请求发送至识别模块;训练模块,用于将所述请求进行训练以及学习相应的请求,进行可疑度运算;识别模块,用于分析提交至识别模块的请求,识别爬虫,记录其源地址,依据源地址进行过滤,对来自爬虫地址的数据进行丢弃;转发模块,用于转发训练模块以及识别模块允许通过的请求。
公开/授权文献
- CN102495861A 一种网络爬虫识别系统及方法 公开/授权日:2012-06-13