-
公开(公告)号:CN108205541B
公开(公告)日:2020-12-04
申请号:CN201611169993.0
申请日:2016-12-16
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/951
摘要: 本发明提供一种分布式网络爬虫任务的调度方法及装置,方法包括:获取分布式网络中每个爬虫节点的处理能力;按照预设的优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得爬虫节点对所分配的待处理任务进行处理。本发明提供的分布式网络爬虫任务的调度方法及装置,按照预设的优先级顺序并根据每个爬虫节点的处理能力为爬虫节点分配相应数量的待处理任务,实现了对爬虫节点的有效管理,并且保证了每个爬虫节点按照自身处理能力对所分配的待处理任务进行处理的效率,进而提高了该调度方法的实用性。
-
公开(公告)号:CN108205541A
公开(公告)日:2018-06-26
申请号:CN201611169993.0
申请日:2016-12-16
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明提供一种分布式网络爬虫任务的调度方法及装置,方法包括:获取分布式网络中每个爬虫节点的处理能力;按照预设的优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得爬虫节点对所分配的待处理任务进行处理。本发明提供的分布式网络爬虫任务的调度方法及装置,按照预设的优先级顺序并根据每个爬虫节点的处理能力为爬虫节点分配相应数量的待处理任务,实现了对爬虫节点的有效管理,并且保证了每个爬虫节点按照自身处理能力对所分配的待处理任务进行处理的效率,进而提高了该调度方法的实用性。
-
公开(公告)号:CN107644021A
公开(公告)日:2018-01-30
申请号:CN201610575716.3
申请日:2016-07-20
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
摘要: 本发明提出了一种信息采集方法和信息采集装置,其中,所述信息采集方法包括:在登录网页版的应用之后,获取所述应用的Cookie、和使用目标账号在所述应用上发布的数据的列表页链接;根据所述Cookie和所述列表页链接获取列表页,并获取所述列表页中的至少一个内容页链接;下载所述至少一个内容页链接中的每个内容页链接对应的内容页。通过本发明的技术方案,可以模拟人的行为在应用的海量数据中采集有价值的数据,进而提高了信息采集的效率。
-
公开(公告)号:CN106203123A
公开(公告)日:2016-12-07
申请号:CN201510226457.9
申请日:2015-05-06
申请人: 北大方正集团有限公司 , 北京大学北京北大方正电子有限公司
摘要: 本发明公开了一种无线传感网安全评价方法及装置,该方法主要包括:建立无线传感网安全指标体系,记录所述无线传感网安全指标体系的第一指标层的正常运行指标值和被攻击时的攻击指标值;根据所述第一指标层的正常运行指标值、所述攻击指标和隶属度函数,确定第一指标层隶属度矩阵;根据所述第N-1指标层的隶属度矩阵及所述第N-1指标层的权重系数,确定所述无线传感网安全指标体系的第N指标层隶属度矩阵;所述N大于等于2;根据最大隶属度原则及评价权重参量,确定所述最高指标层隶属度矩阵中最大隶属度为所述无线传感网安全指标体系的评价结果。采用上述方法,能够及时发现无线传感网中的漏洞,为采取优质的安全技术提供依据。
-
公开(公告)号:CN111176848B
公开(公告)日:2023-05-26
申请号:CN201911423623.9
申请日:2019-12-31
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F9/50 , G06F16/951
摘要: 本申请提供一种集群任务的处理方法、装置、设备和存储介质。该方法包括:上层调度模块通过获取从第一时刻至当前的任务失败量,判断在该时段中,任务失败量是否满足第一预设条件,进而,动态调整最大允许并发量,实现对对采集任务的合理调度,避免高并发导致的分布式采集集群访问压力过高。上层调度模块还可以通过获取预设时间间隔内的任务失败量和当前任务并发量,判断在该时段中,任务失败量是否满足第二预设条件,进而,动态调整最大允许并发量,减少分布式采集集群资源浪费。
-
公开(公告)号:CN111176848A
公开(公告)日:2020-05-19
申请号:CN201911423623.9
申请日:2019-12-31
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F9/50 , G06F16/951
摘要: 本申请提供一种集群任务的处理方法、装置、设备和存储介质。该方法包括:上层调度模块通过获取从第一时刻至当前的任务失败量,判断在该时段中,任务失败量是否满足第一预设条件,进而,动态调整最大允许并发量,实现对对采集任务的合理调度,避免高并发导致的分布式采集集群访问压力过高。上层调度模块还可以通过获取预设时间间隔内的任务失败量和当前任务并发量,判断在该时段中,任务失败量是否满足第二预设条件,进而,动态调整最大允许并发量,减少分布式采集集群资源浪费。
-
公开(公告)号:CN110874430A
公开(公告)日:2020-03-10
申请号:CN201810904421.5
申请日:2018-08-09
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/953 , G06F16/958
摘要: 本发明提供一种网络爬虫调度方法、装置及设备。方法包括:获取站点的刷新频率,并将刷新频率发送至下载模块,以使下载模块根据刷新频率对站点的列表页进行刷新;根据刷新结果确定站点的实际刷新比例;根据实际刷新比例确定站点是否存在异常情况,若是,则将站点标记为异常站点,并且向下载模块发送停止刷新指令,以使下载模块不再对异常站点的列表页进行刷新。本实施例提供的方案能够通过控制下载模块的工作状态,避免下载模块从异常站点中采集无用网页数据引起的资源浪费问题,同时还能够提高采集有用网页数据的效率。
-
公开(公告)号:CN110874430B
公开(公告)日:2022-06-14
申请号:CN201810904421.5
申请日:2018-08-09
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/953 , G06F16/958
摘要: 本发明提供一种网络爬虫调度方法、装置及设备。方法包括:获取站点的刷新频率,并将刷新频率发送至下载模块,以使下载模块根据刷新频率对站点的列表页进行刷新;根据刷新结果确定站点的实际刷新比例;根据实际刷新比例确定站点是否存在异常情况,若是,则将站点标记为异常站点,并且向下载模块发送停止刷新指令,以使下载模块不再对异常站点的列表页进行刷新。本实施例提供的方案能够通过控制下载模块的工作状态,避免下载模块从异常站点中采集无用网页数据引起的资源浪费问题,同时还能够提高采集有用网页数据的效率。
-
公开(公告)号:CN112035725A
公开(公告)日:2020-12-04
申请号:CN202010914439.0
申请日:2020-09-03
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F16/951 , G06F16/955
摘要: 本发明实施例提供一种数据采集系统和方法,该系统包括:爬虫管理模块,采集集群模块和数据落地模块;所述爬虫管理模块中部署有多个爬虫线程,不同爬虫线程对应的数据采集方式不同;所述爬虫管理模块用于:基于调度机制,控制相应爬虫线程通过所述采集集群模块在网页中采集数据,并基于滤重机制对采集到的数据进行处理,得到有效数据;所述数据落地模块用于获取所述有效数据,并将所述有效数据按照预先确定的落地路径写入相应的内存中。该数据采集系统通过统一管理爬虫线程以及数据滤重,大大减少了开发人员的工作量,提高了数据采集效率和精度。
-
公开(公告)号:CN108153775A
公开(公告)日:2018-06-12
申请号:CN201611105092.5
申请日:2016-12-05
申请人: 北大方正集团有限公司 , 北京北大方正电子有限公司
IPC分类号: G06F17/30
摘要: 本发明实施例提供一种元搜索引擎高频访问单个网站的方法及元搜索引擎,其中,该方法包括:根据用户输入的搜索信息,从本地存储的多个网站标识中获取至少一个目标网站的网站标识,所述目标网站包括所述搜索信息,所述本地存储的多个网站标识中的每个网站标识对应有一个Cookie集合,所述Cookie集合包括多个Cookie;分别从每个目标网站对应的Cookie集合中确定出一个目标Cookie;根据所述目标Cookie访问所述目标Cookie对应的网站。本发明实施例提供的元搜索引擎高频访问单个网站的方法及元搜索引擎,能够解决网站对Cookie的封禁问题,提高元搜索对单个网站的访问频率。
-
-
-
-
-
-
-
-
-