一种网页风险发现的方法

    公开(公告)号:CN113761318A

    公开(公告)日:2021-12-07

    申请号:CN202110484421.6

    申请日:2021-04-30

    Abstract: 本发明公开了一种网页风险发现的方法,包括下列步骤:S1、数据采集阶段,使用高效蔓延的基本原理,获取到网站大量的网页;S2、数据流转阶段,使用Confluent接入Kafka中数据,调用风险识别服务后,将数据存储至Elasticsearch中,完成整个数据流转;S3、风险识别阶段,针对采集到的数据进行分词,与风险规则库中数据进校对,将符合风险规则数据保存;S4、数据存储阶段,针对采集的原始数据进行处理,然后对处理后的数据,根据数据类型、规模、用途按需存储;S5、风险发现整体流程完成。有益效果:在海量网页数据中能够快速的定位风险网站。

Patent Agency Ranking