基于多通道代理的数据获取方法、系统及装置

    公开(公告)号:CN112528118A

    公开(公告)日:2021-03-19

    申请号:CN202011491957.2

    申请日:2020-12-17

    Abstract: 本申请提供了一种基于多通道代理的数据获取方法、系统及装置,数据获取方法包括以下步骤:获取所需数据中的关键词;根据获取的关键词调用分布式爬虫框架;所述分布式爬虫框架中设置有多个爬虫节点;改变所述爬虫节点的IP;接收不同IP的爬虫节点爬取的网页数据;对接收到的网页数据进行数据抽取、转换、装载处理,得到有效数据;对有效数据进行存储。本申请通过分布式爬虫框架中的多个爬虫节点形成多通道代理,通过在每次爬取信息前改变分布式爬虫框架中爬虫节点的IP,能够绕过数据提供网站的反爬虫检测手段,用爬虫节点达到多通道代理、发现情报以及清洗、转换等操作,保证数据的精准可靠。

    一种基于TCAM连续数值匹配方法和装置

    公开(公告)号:CN104901947B

    公开(公告)日:2017-11-24

    申请号:CN201510172733.8

    申请日:2015-04-13

    Abstract: 本发明实施例提供一种基于TCAM连续数值匹配方法和装置,该方法包括:根据分界点数值将连续数值区域划分为三个数值段,在该三个数值段中至少有一个数值段的两个端点数值符合预设三态编码规则,在端点数值不符合预设三态编码规则的数值段内继续确定分界点数值进行数据分段;对于符合预设三态编码规则的两个端点数值,将该两个端点数值之间的数值段中数值的二进制编码的宽度比特分别分成多个比特段,对每个比特段进行三态编码,生成该数值段的三态内容寻址内存器记录;对待匹配数值进行与数据段相同形式的三态编码,生成待匹配数值的三态内容寻址内存器记录,将待匹配数值的三态内容寻址内存器记录和数值段的三态内容寻址内存器记录进行匹配。

    一种基于关键字词频特征的多模式匹配方法

    公开(公告)号:CN105373601B

    公开(公告)日:2019-05-21

    申请号:CN201510755911.X

    申请日:2015-11-09

    Abstract: 本发明提供一种基于关键字词频特征的多模式匹配方法,首先从已知的信息数据库中提取关键字并统计出现频率作为其词频信息,其次采用构造含有关键字词频信息的二叉树完成其中的模式串匹配,在字符匹配过程中若出现字符不相等,则与该不匹配字符所在节点的兄弟节点所含字符进行匹配。其利用信息来源的模式的关键字词频信息构造基于字典树的二叉树完成其中的模式串的匹配,并与AC算法进行了比较。传统的AC算法需要维护三张表,并且在模式匹配过程中会频繁访问这三张表;本发明的一种基于关键字词频特征的多模式匹配方法更多的利用了模式本身的词频信息,并不需要维护过多的信息,这就大大减少了系统的内存消耗。

Patent Agency Ranking