-
公开(公告)号:CN110557462A
公开(公告)日:2019-12-10
申请号:CN201910683148.2
申请日:2019-07-26
Applicant: 北京天元特通科技有限公司 , 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种基于公共代理的分布式接入系统,主要由接入管理部件、数据处理部件以及代理资源管理部件构成;接入管理部件,接收用户数据,并对用户数据进行解析,获取五元组信息后进行地址翻译并建立连接追踪表,然后将用户数据传送给数据处理部件;代理资源管理部件,依据用户指定的代理资源使用策略,选出符合需求的代理,传送给数据处理部件;数据处理部件,建立与对应代理服务器的连接,并建立连接映射表,然后将用户数据进行封装后发送出去。该系统能够实现将可用的公共代理资源接入,解决了代理资源本身带来的不稳定问题,并且极大地节约了成本费用。
-
公开(公告)号:CN110557462B
公开(公告)日:2022-11-25
申请号:CN201910683148.2
申请日:2019-07-26
Applicant: 北京天元特通科技有限公司 , 国家计算机网络与信息安全管理中心
IPC: H04L61/2521 , H04L61/103 , H04L67/1061 , H04L67/14 , H04L67/56 , H04L67/566 , H04L9/40
Abstract: 本发明提供一种基于公共代理的分布式接入系统,主要由接入管理部件、数据处理部件以及代理资源管理部件构成;接入管理部件,接收用户数据,并对用户数据进行解析,获取五元组信息后进行地址翻译并建立连接追踪表,然后将用户数据传送给数据处理部件;代理资源管理部件,依据用户指定的代理资源使用策略,选出符合需求的代理,传送给数据处理部件;数据处理部件,建立与对应代理服务器的连接,并建立连接映射表,然后将用户数据进行封装后发送出去。该系统能够实现将可用的公共代理资源接入,解决了代理资源本身带来的不稳定问题,并且极大地节约了成本费用。
-
公开(公告)号:CN109388768A
公开(公告)日:2019-02-26
申请号:CN201811008673.6
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于附加分支处理服务的采集方法和系统,包括:获取采集任务,该采集任务具有多个处理步骤和分支号;依次执行该采集任务中的处理步骤,并在每一个处理步骤执行前,根据该分支号判断是否调用该附加分支处理服务,若是,则通过调用该附加分支处理服务执行附加处理流程,并替代将要执行的处理步骤,否则执行将要执行的处理步骤。由此,本发明采用附加分支的技术,能够应对信源的各种复杂情况。且针对附加分支单独开发,容易崩溃的情况,采用服务化方法执行附加分支,并且附加分支运行器可以在崩溃自动重启,可以避免附加分支崩溃带来的采集器崩溃问题。
-
公开(公告)号:CN109241483A
公开(公告)日:2019-01-18
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN111382181B
公开(公告)日:2024-08-02
申请号:CN202010183474.X
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2455 , G06Q40/06 , G06Q40/04 , G06Q10/0635
Abstract: 本发明涉及数据处理的技术领域,具体涉及一种基于股权穿透的指定企业派系归属分析方法及系统,包括对每个待分析企业信息数据进行采集存储,得到原始信息数据,信息数据包括股东信息数据;根据原始信息数据对每个待分析企业向上发散计算股权链路占比,并确定所述每个待分析企业的全部股东,所述全部股东包括最终股东;通过检索出与所述最终股东相关的关联待分析企业,生成与最终股东相关的第一派系信息数据;对第一派系信息数据进行合并,生成最终派系信息数据;通过对股东信息进行采集存储以及分析,从而计算出每个待分析企业的向上发散计算股权链路占比。对待分析企业进行了基于最终股东的集合划分,为企业关联分析提供支撑。
-
公开(公告)号:CN110442421B
公开(公告)日:2022-04-01
申请号:CN201910578655.X
申请日:2019-06-28
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F9/455
Abstract: 本发明提出一种基于Kubernetes的通用服务转换方法和系统,包括:构建由多个节点构成的Kubernetes系统,其中节点的Pod设有用于提供服务的原服务容器,并通过在Pod中新添加容器的方式或通过原容器镜像的方式,在节点的Pod中加入转换程序;每当发生一次服务调用请求,转换容器或程序根据配置,将服务调用请求转换为原服务执行请求,通过调用原服务容器,提供相对应的服务,并转换成该服务调用请求所对应的服务结果。本发明可解决Kubernetes服务与调用者之间接口不一致的问题;并可减少转换程序与服务程序、调用程序之间的网络开销,同时结合Kubernetes特性,服务程序重新部署时,转换程序自动跟随部署。
-
公开(公告)号:CN112528118A
公开(公告)日:2021-03-19
申请号:CN202011491957.2
申请日:2020-12-17
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F16/951 , G06F16/9535 , G06F16/22 , G06F16/25
Abstract: 本申请提供了一种基于多通道代理的数据获取方法、系统及装置,数据获取方法包括以下步骤:获取所需数据中的关键词;根据获取的关键词调用分布式爬虫框架;所述分布式爬虫框架中设置有多个爬虫节点;改变所述爬虫节点的IP;接收不同IP的爬虫节点爬取的网页数据;对接收到的网页数据进行数据抽取、转换、装载处理,得到有效数据;对有效数据进行存储。本申请通过分布式爬虫框架中的多个爬虫节点形成多通道代理,通过在每次爬取信息前改变分布式爬虫框架中爬虫节点的IP,能够绕过数据提供网站的反爬虫检测手段,用爬虫节点达到多通道代理、发现情报以及清洗、转换等操作,保证数据的精准可靠。
-
公开(公告)号:CN111382181A
公开(公告)日:2020-07-07
申请号:CN202010183474.X
申请日:2020-03-16
Applicant: 中科天玑数据科技股份有限公司 , 国家计算机网络与信息安全管理中心
IPC: G06F16/2455 , G06Q40/06 , G06Q40/04 , G06Q10/06
Abstract: 本发明涉及数据处理的技术领域,具体涉及一种基于股权穿透的指定企业派系归属分析方法及系统,包括对每个待分析企业信息数据进行采集存储,得到原始信息数据,信息数据包括股东信息数据;根据原始信息数据对每个待分析企业向上发散计算股权链路占比,并确定所述每个待分析企业的全部股东,所述全部股东包括最终股东;通过检索出与所述最终股东相关的关联待分析企业,生成与最终股东相关的第一派系信息数据;对第一派系信息数据进行合并,生成最终派系信息数据;通过对股东信息进行采集存储以及分析,从而计算出每个待分析企业的向上发散计算股权链路占比。对待分析企业进行了基于最终股东的集合划分,为企业关联分析提供支撑。
-
公开(公告)号:CN109241483B
公开(公告)日:2021-10-12
申请号:CN201811008674.0
申请日:2018-08-31
Applicant: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC: G06F16/958
Abstract: 本发明涉及一种基于域名推荐的网站发现方法,包括:在域名字符集随机选取任意字符排列组合以获得词根字符串;以该词根字符串组成候选字符串;将该候选字符串与候选域名后缀进行拼接,组成推荐域名;对该推荐域名进行DNS解析,以判断为合法的该推荐域名为合法域名;验证该合法域名是否存在对应网站,若存在则获取为目标网站。
-
公开(公告)号:CN115473659A
公开(公告)日:2022-12-13
申请号:CN202110652291.2
申请日:2021-06-11
Applicant: 国家计算机网络与信息安全管理中心
Inventor: 张凯
Abstract: 本申请提供一种多渠道爬虫采集平台及其采集方法,采集平台包括数据库和集群主体;所述集群主体框架下至少包括一个爬虫集群,所述爬虫集群包括爬虫根节点以及由所述爬虫根节点延伸出的爬虫节点;所述爬虫节点包括采集模块、解析模块、提取模块以及网络访问模块;所述网络访问模块,包括基本网络访问模块和特殊网络访问模块;所述特殊网络访问模块用于通过Privoxy将收到的HTTP请求转给SOCKS5代理,由SOCKS5代理转发至ShadowSocks服务器,再转到网页进行访问;或者先通过Privoxy把收到的HTTP请求转给SOCKS5代理,再由所述SOCKS5代理转发到Tor代理服务器,所述Tor代理服务器再通过SOCKS5转发到ShadowSocks服务器,再通过所述ShadowSocks服务器通过Tor中继节点转到网页进行访问。本申请能够更高效获得网络数据。
-
-
-
-
-
-
-
-
-