-
公开(公告)号:CN112231536A
公开(公告)日:2021-01-15
申请号:CN202011155504.2
申请日:2020-10-26
Applicant: 中国信息安全测评中心
IPC: G06F16/951
Abstract: 本发明公开了一种基于自学习的数据爬取方法及装置,预先构建包括网站结构和爬虫程序模板对应关系的网站结构数据库,对应关系至少为一个,该方法包括:在对当前网站的爬取时,获取当前网站的网站结构;遍历网站结构数据库,查找与网站结构匹配的第一目标爬虫程序模板;基于第一目标爬虫程序模板对当前网站进行爬取;在网站结构改变导致爬取异常时,继续匹配网站结构数据库查找与当前网站匹配的第二目标爬虫程序模板;基于第二目标爬虫程序模板对当前网站进行爬取。上述方法,预先建立网站结构数据库,当网站结构改变时依旧可以依据网站结构数据库中的对应关系,查找到对应的爬虫程序模板,不需要重新开发程序,不会导致爬取数据中断。
-
公开(公告)号:CN112783726B
公开(公告)日:2024-12-13
申请号:CN202110113168.3
申请日:2021-01-27
Applicant: 中国信息安全测评中心
IPC: G06F11/30 , G06F16/951
Abstract: 本申请实施例提供了一种报警信息的生成方法、装置、设备及可读存储介质,响应于接收到日志,更新异常次数,若第一计时时间达到第一预设时间时,异常次数不等于0,至少依据历史日志,获取等待恢复时间,在第二计时时间达到等待恢复时间时,在第二计时时间指示的时间段内接收到的日志均为异常日志,生成报警信息。异常次数为连续接收到异常日志的次数,第一计时时间指示连续接收到异常日志的时长,第二计时时间指示距离第一计时时间达到第一预设时间的时刻的时间,说明在第一计时时间内接收到至少一次异常日志后,在等待恢复时间指示的时间内导致异常日志的故障没有恢复。可见,本方法生成的报警信息准确度高。
-
公开(公告)号:CN112783726A
公开(公告)日:2021-05-11
申请号:CN202110113168.3
申请日:2021-01-27
Applicant: 中国信息安全测评中心
IPC: G06F11/30 , G06F16/951
Abstract: 本申请实施例提供了一种报警信息的生成方法、装置、设备及可读存储介质,响应于接收到日志,更新异常次数,若第一计时时间达到第一预设时间时,异常次数不等于0,至少依据历史日志,获取等待恢复时间,在第二计时时间达到等待恢复时间时,在第二计时时间指示的时间段内接收到的日志均为异常日志,生成报警信息。异常次数为连续接收到异常日志的次数,第一计时时间指示连续接收到异常日志的时长,第二计时时间指示距离第一计时时间达到第一预设时间的时刻的时间,说明在第一计时时间内接收到至少一次异常日志后,在等待恢复时间指示的时间内导致异常日志的故障没有恢复。可见,本方法生成的报警信息准确度高。
-
-