用于下载网站数据的分布式方法和系统

    公开(公告)号:CN103475688A

    公开(公告)日:2013-12-25

    申请号:CN201310198688.4

    申请日:2013-05-24

    发明人: 吴自立

    IPC分类号: H04L29/08

    摘要: 本发明提供了用于下载网站数据的分布式方法和系统。该系统包括:控制器,读取起始地址列表中的一个或多个地址,并将所述一个或多个地址存入在数据库中维护的多个下载队列中的至少一个下载队列;数据库,用于维护多个下载队列,其中,所述多个下载队列至少包括第一下载队列和第二下载队列,且各个下载队列对应于不同类型的数据;多个下载模块,用于根据所述多个下载队列来分别下载多个类型的数据,从根据所述第一下载队列下载的数据中解析出要下载的后续地址,判断所述后续地址属于哪个下载队列,根据所述判断的结果,将所述后续地址存入相应下载队列中;以及重复上述过程,直到满足预定条件为止。

    用于更新规则数据集的方法和设备

    公开(公告)号:CN103294830A

    公开(公告)日:2013-09-11

    申请号:CN201310261691.6

    申请日:2013-06-27

    发明人: 吴自立

    IPC分类号: G06F17/30

    摘要: 本发明提供了一种用于更新规则数据集的方法,包括:初始化第一数据表和第二数据表,所述第一数据表用于保存当前有效的规则,所述第二数据表用于保存发生变更的规则的编号;当需要更新时,对所述第一数据表中的规则进行更新;以及在对所述第一数据表中的规则进行更新后,将所更新的规则的编号添加到所述第二数据表中。本发明还提供了一种用于更新规则数据集的设备。利用本发明,规则集的内容分析/维护变得更加方便,额外开销很小且更有效率。

    用于下载网站数据的分布式方法和系统

    公开(公告)号:CN103475687A

    公开(公告)日:2013-12-25

    申请号:CN201310198673.8

    申请日:2013-05-24

    发明人: 吴自立

    IPC分类号: H04L29/08 G06F17/30

    摘要: 本发明提供了用于下载网站数据的分布式方法和系统。该方法包括以下步骤:设定一个或多个下载组;在数据库中针对每个下载组维护相应的网站列表;一个或多个下载模块中的每个下载模块根据针对与其相关联的下载组所维护的网站列表来获取相应网站的一个或多个下载队列;以及所述每个下载模块根据所述一个或多个下载队列来进行下载。

    用于下载网站数据的分布式方法和系统

    公开(公告)号:CN103475687B

    公开(公告)日:2016-12-28

    申请号:CN201310198673.8

    申请日:2013-05-24

    发明人: 吴自立

    IPC分类号: H04L29/08 G06F17/30

    摘要: 本发明提供了用于下载网站数据的分布式方法和系统。该方法包括以下步骤:设定一个或多个下载组;在数据库中针对每个下载组维护相应的网站列表;一个或多个下载模块中的每个下载模块根据针对与其相关联的下载组所维护的网站列表来获取相应网站的一个或多个下载队列;以及所述每个下载模块根据所述一个或多个下载队列来进行下载。