数据采集方法、装置及存储介质

    公开(公告)号:CN111092921B

    公开(公告)日:2022-05-10

    申请号:CN201811240829.3

    申请日:2018-10-24

    发明人: 曹六一 张丹

    摘要: 本发明提供一种数据采集方法、装置及存储介质,通过调度节点将调度任务发送给总控节点,总控节点接收各数据采集节点发送的运行状态信息,并根据预设策略、预先获取的各所述数据采集节点的处理能力信息及各数据采集节点的运行状态信息,将调度任务分配给数据采集节点,以使数据采集节点执行调度任务。通过总控节点统一管理各数据采集节点,为每一数据采集节点均衡负载,提高数据采集的响应能力与机器资源使用率,且数据采集节点可分布在不同的机房中,充分利用多机房的带宽与多IP地址优势,且支持节点的动态扩容与收缩。

    社交媒体信息采集方法、装置、系统、设备及存储介质

    公开(公告)号:CN110046319A

    公开(公告)日:2019-07-23

    申请号:CN201910255758.2

    申请日:2019-04-01

    摘要: 本申请实施例提供一种社交媒体信息采集方法、装置、系统、设备及存储介质,该方法包括:向账号资源服务装置发送第一请求信息,所述第一请求信息用于请求所述账号资源服务装置根据待采集社交媒体的特征信息给所述采集调度装置分配对应的账号资源;根据所述账号资源,生成和/或衍生调度采集任务;向采集程序动态加载装置发送第二请求信息,所述第二请求信息用于请求调用所述采集程序动态加载装置提供的多个通用服务组件;根据所述调度采集任务,通过所述多个通用服务组件和所述账号资源,确定采集结果,所述采集结果用于表示对所述待采集社交媒体进行社交媒体信息采集后得到的采集数据。本实施例提供的方法能够适用于通用社交媒体信息的采集。

    数据采集系统和方法
    3.
    发明公开

    公开(公告)号:CN112035725A

    公开(公告)日:2020-12-04

    申请号:CN202010914439.0

    申请日:2020-09-03

    IPC分类号: G06F16/951 G06F16/955

    摘要: 本发明实施例提供一种数据采集系统和方法,该系统包括:爬虫管理模块,采集集群模块和数据落地模块;所述爬虫管理模块中部署有多个爬虫线程,不同爬虫线程对应的数据采集方式不同;所述爬虫管理模块用于:基于调度机制,控制相应爬虫线程通过所述采集集群模块在网页中采集数据,并基于滤重机制对采集到的数据进行处理,得到有效数据;所述数据落地模块用于获取所述有效数据,并将所述有效数据按照预先确定的落地路径写入相应的内存中。该数据采集系统通过统一管理爬虫线程以及数据滤重,大大减少了开发人员的工作量,提高了数据采集效率和精度。

    数据采集方法及装置、计算机可读存储介质

    公开(公告)号:CN111125589A

    公开(公告)日:2020-05-08

    申请号:CN201811283037.4

    申请日:2018-10-31

    IPC分类号: G06F16/958

    摘要: 本发明提供一种数据采集方法及装置、计算机可读存储介质。该方法包括:调度模块获取调度模板中的调度信息,所述调度模板以动态模板语言编写并存储,然后,所述调度模块根据所述调度信息,生成网络请求,从而,下载模块根据所述网络请求,下载网页源码,进而,解析模块利用解析模板处理所述网页源码,得到目标数据,所述解析模板与所述调度模板相对应。本发明的方法,提高了数据采集过程的灵活性与数据采集效率。

    数据抽取方法及装置
    5.
    发明公开

    公开(公告)号:CN108228629A

    公开(公告)日:2018-06-29

    申请号:CN201611161732.4

    申请日:2016-12-15

    IPC分类号: G06F17/30

    摘要: 本发明实施例提供一种数据抽取方法及装置。该方法包括:数据抽取插件从数据总线获取数据抽取任务,所述数据总线连接有多个数据抽取插件,每个数据抽取插件用于抽取不同种类的数据;数据抽取插件根据所述数据抽取任务抽取数据;并将其抽取到的数据发送给所述数据总线。本发明实施例基于数据抽取插件的数据抽取子系统,将散步在各个爬虫系统的中的抽取子模块插件化,解除与原系统的紧耦合,因此可以方便的对数据抽取模块进行复用;同时,将抽取模块以插件的方式集中管理,能更好的调配机器物理资源,提高物理资源的利用率。

    元搜索引擎高频访问单个网站的方法及元搜索引擎

    公开(公告)号:CN108153775A

    公开(公告)日:2018-06-12

    申请号:CN201611105092.5

    申请日:2016-12-05

    IPC分类号: G06F17/30

    摘要: 本发明实施例提供一种元搜索引擎高频访问单个网站的方法及元搜索引擎,其中,该方法包括:根据用户输入的搜索信息,从本地存储的多个网站标识中获取至少一个目标网站的网站标识,所述目标网站包括所述搜索信息,所述本地存储的多个网站标识中的每个网站标识对应有一个Cookie集合,所述Cookie集合包括多个Cookie;分别从每个目标网站对应的Cookie集合中确定出一个目标Cookie;根据所述目标Cookie访问所述目标Cookie对应的网站。本发明实施例提供的元搜索引擎高频访问单个网站的方法及元搜索引擎,能够解决网站对Cookie的封禁问题,提高元搜索对单个网站的访问频率。

    社交媒体信息采集方法、装置、系统、设备及存储介质

    公开(公告)号:CN110046319B

    公开(公告)日:2021-04-09

    申请号:CN201910255758.2

    申请日:2019-04-01

    摘要: 本申请实施例提供一种社交媒体信息采集方法、装置、系统、设备及存储介质,该方法包括:向账号资源服务装置发送第一请求信息,所述第一请求信息用于请求所述账号资源服务装置根据待采集社交媒体的特征信息给所述采集调度装置分配对应的账号资源;根据所述账号资源,生成和/或衍生调度采集任务;向采集程序动态加载装置发送第二请求信息,所述第二请求信息用于请求调用所述采集程序动态加载装置提供的多个通用服务组件;根据所述调度采集任务,通过所述多个通用服务组件和所述账号资源,确定采集结果,所述采集结果用于表示对所述待采集社交媒体进行社交媒体信息采集后得到的采集数据。本实施例提供的方法能够适用于通用社交媒体信息的采集。

    分布式网络爬虫任务的调度方法及装置

    公开(公告)号:CN108205541B

    公开(公告)日:2020-12-04

    申请号:CN201611169993.0

    申请日:2016-12-16

    IPC分类号: G06F16/951

    摘要: 本发明提供一种分布式网络爬虫任务的调度方法及装置,方法包括:获取分布式网络中每个爬虫节点的处理能力;按照预设的优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得爬虫节点对所分配的待处理任务进行处理。本发明提供的分布式网络爬虫任务的调度方法及装置,按照预设的优先级顺序并根据每个爬虫节点的处理能力为爬虫节点分配相应数量的待处理任务,实现了对爬虫节点的有效管理,并且保证了每个爬虫节点按照自身处理能力对所分配的待处理任务进行处理的效率,进而提高了该调度方法的实用性。

    统一资源定位符的选择方法和统一资源定位符的选择装置

    公开(公告)号:CN106033428B

    公开(公告)日:2019-08-30

    申请号:CN201510107097.0

    申请日:2015-03-11

    IPC分类号: G06F16/955 G06F16/958

    摘要: 本发明提出了一种统一资源定位符的选择方法和一种统一资源定位符的选择装置,其中,方法包括:根据输入的关键词获取与关键词相关的至少一个统一资源定位符;根据至少一个统一资源定位符中的每个统一资源定位符的参数信息和/或至少一个统一资源定位符所使用的域名的权重比,统计每个统一资源定位符与关键词的相关度;根据每个统一资源定位符与关键词的相关度,从至少一个统一资源定位符中选择目标统一资源定位符,以将目标统一资源定位符作为与关键词相关的统一资源定位符的搜索结果。通过本发明的技术方案,可以有效地保证了获取统一资源定位符的覆盖率和准确率,从而可以根据统一资源定位符获取质量较高的网页内容以供满足舆情分析的需求。

    分布式网络爬虫任务的调度方法及装置

    公开(公告)号:CN108205541A

    公开(公告)日:2018-06-26

    申请号:CN201611169993.0

    申请日:2016-12-16

    IPC分类号: G06F17/30

    摘要: 本发明提供一种分布式网络爬虫任务的调度方法及装置,方法包括:获取分布式网络中每个爬虫节点的处理能力;按照预设的优先级顺序并根据每个爬虫节点的处理能力为每个爬虫节点分配相应的待处理任务,以使得爬虫节点对所分配的待处理任务进行处理。本发明提供的分布式网络爬虫任务的调度方法及装置,按照预设的优先级顺序并根据每个爬虫节点的处理能力为爬虫节点分配相应数量的待处理任务,实现了对爬虫节点的有效管理,并且保证了每个爬虫节点按照自身处理能力对所分配的待处理任务进行处理的效率,进而提高了该调度方法的实用性。