一种网络安全日志模板抽取方法及装置

    公开(公告)号:CN105049247A

    公开(公告)日:2015-11-11

    申请号:CN201510391607.1

    申请日:2015-07-06

    CPC classification number: H04L41/069 H04L63/20

    Abstract: 本发明涉及一种网络安全日志模板抽取方法及装置。该方法的步骤包括:1)对原始的网络安全日志进行数据清洗,得到过滤掉时间和IP地址的日志信息;2)对不包含时间和IP地址的日志信息进行聚类,把具有相似格式的日志划分到同一类中;3)对于每一类中的日志,提取出日志中描述格式的模板词,得到日志格式的模板。具体地,采用DBSCAN算法或者OPTICS算法对相似格式的日志进行聚类,利用LDA Gibbs sampling算法提取出日志中描述格式的模板词。该装置包括数据清洗单元、信息聚类单元、模板提取单元。本发明不需要任何先验知识,可以自动获取网络安全日志格式的模板,能够减小系统负载,提高运算效率和准确性。

    一种开放式的多源数据采集系统及方法

    公开(公告)号:CN104111983A

    公开(公告)日:2014-10-22

    申请号:CN201410306336.0

    申请日:2014-06-30

    CPC classification number: G06F17/30557

    Abstract: 本发明涉及一种开放式的多源数据采集系统及方法,包括用于根据需要创建采集任务,配置采集任务信息,生成相应的数据采集接口规则的任务管理模块;用于加载数据采集接口规则,执行处于激活状态的采集任务,相应的采集任务进行数据源监听并采集数据,将接采集的数据按照统一格式进行封装,并发送给数据存储模块的任务执行模块;用于存储数据输出模块输出的数据的数据存储模块;本发明覆盖了比较全面的数据源采集类型,支持目前通用的数据采集方式,支持数据采集接口的动态扩展和多个数据源的并行采集,当有新的数据源接入时,只需要配置数据采集任务信息,不需要部署采集代理和数据模式转换工具即可轻松实现对新数据源的数据采集。

    一种面向新闻标题的人物关系抽取方法

    公开(公告)号:CN105608070B

    公开(公告)日:2019-01-25

    申请号:CN201510965136.0

    申请日:2015-12-21

    Abstract: 本发明涉及一种面向新闻标题的人物关系抽取方法,其步骤包括:1)寻找出新闻标题中的关系指示词,用以区分不同类别的人物关系;2)根据人物与关系指示词在新闻标题中的位置特征,建立描述句子的句式模板;利用训练数据统计每个模板的正/负例个数,根据正负模板的比例判定新闻标题中人物间关系的正确性;3)从新闻标题与人物属性知识库中提取特征,通过特征分类的方法并结合步骤2)得到的句式模板的正/负例个数,判定给定的人物关系是否正确。本发明在保证准确率的同时,降低了特征维度,提高了判定效率,可用于挖掘新闻标题中的人物关系,进而发现社会中的焦点人物、热点事件等,便于及时掌握社会动态,监控舆情。

Patent Agency Ranking