-
公开(公告)号:CN103778200A
公开(公告)日:2014-05-07
申请号:CN201410010836.X
申请日:2014-01-09
申请人: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F17/30
CPC分类号: G06F17/30684
摘要: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。
-
公开(公告)号:CN103778200B
公开(公告)日:2017-08-08
申请号:CN201410010836.X
申请日:2014-01-09
申请人: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F17/30
摘要: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。
-
公开(公告)号:CN108897749A
公开(公告)日:2018-11-27
申请号:CN201810355382.8
申请日:2018-04-19
申请人: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
摘要: 本发明涉及一种基于语法树和文本块密度的网页信息抽取方法,包括:获取网页的标题文本信息;设定筛选阈值,计算该网页所有节点的文本块密度,以该文本块密度大于该筛选阈值的节点为采集节点,提取该采集节点的节点文本信息;若该采集节点的数量为1,则以该节点文本信息为目标信息进行抽取;若该采集节点的数量大于1,则将该标题文本信息和该节点文本信息分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树;获得每个该节点深层语法树与该标题深层语法树的整体相似度,以该整体相似度中的最大值对应的节点文本信息为目标信息进行抽取。
-
公开(公告)号:CN108769115A
公开(公告)日:2018-11-06
申请号:CN201810354384.5
申请日:2018-04-19
申请人: 中国科学院计算技术研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: H04L29/08
CPC分类号: H04L67/1008
摘要: 本发明涉及一种分布式RSS数据采集系统,包括:分布于网络的至少一个采集节点模块,用于采集该网络上的RSS数据;注册中心,用于保存所有该采集节点模块的信息,并将该信息提供给该调度模块;调度模块,用于根据该信息将采集任务分配给该采集节点模块。分布式RSS数据采集方法包括:通过注册中心收集分布于网络的采集节点模块的信息;通过调度模块拉取采集任务;通过该调度模块拉取该信息;根据该信息将该采集任务分配给该采集节点模块;采集该网络上的RSS数据。
-
公开(公告)号:CN109145109B
公开(公告)日:2022-06-03
申请号:CN201710464424.7
申请日:2017-06-19
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F16/2458 , G06Q50/00
摘要: 本发明涉及一种基于社交网络的用户群体消息传播异常分析方法和装置,包括:获取在线社交网络中用户群体的历史聊天记录,根据预先设定的时间跨度,获取历史聊天记录在时间跨度内用户群体中所有用户所发布的消息,作为消息集合;对于消息集合,根据预先设定的时间范围统计用户群体在每个时间范围内所发布的消息总数;基于时序相关性的特征提取法,对每个消息总数的特征进行提取,并将提取结果集合为样本集合;根据消息总数并采用聚类算法为样本集合对样本集合进行聚类,生成异常样本;根据异常样本判定其所在的用户群体存在消息传播异常。由此本发明能够应对数据涌发现象,同时算法直观简单,准确率更高,且本发明应用场景广泛。
-
公开(公告)号:CN108429649B
公开(公告)日:2020-11-06
申请号:CN201810244277.7
申请日:2018-03-23
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: H04L12/24
摘要: 本发明公开了一种基于多次单类型采集结果的综合异常判断系统,涉及网络预警技术领域。所述系统包括:阈值生成单元和异常判断单元;所述阈值生成单元,在从被采集系统上获取到的采集数据的基础上,计算判断阈值;所述异常判断单元,在所述判断阈值和所述采集数据的基础上,判断被采集系统运行是正常还是异常。本发明所述系统对采集到的数据进行多种方式进行判断,从而在不接触被监测系统后台日志或硬件数据的情况下准确识别出被检测系统的运行状况,解决了因使用平均值计算抗干扰性太弱,固定阈值判断性能太差,阈值波动范围设置方案单一且低效的问题。
-
公开(公告)号:CN106126606B
公开(公告)日:2019-08-20
申请号:CN201610453319.9
申请日:2016-06-21
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/2458 , G06F16/33
摘要: 本发明公开了一种短文本新词发现方法。本方法为:1)从当前短文本中提取一字符串s,计算该字符串s的对称条件概率SCP(s)以及该字符串s的左邻熵HL(s)和右邻熵HL(s);2)取左邻熵HL(s)和右邻熵HL(s)的较小值,记为BE(s);3)计算该字符串s的成词概率Prword(s),根据Prword(s)的值确定词s是否为新词。本发明大大提高了新词发现的准确率。
-
公开(公告)号:CN108429649A
公开(公告)日:2018-08-21
申请号:CN201810244277.7
申请日:2018-03-23
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: H04L12/24
CPC分类号: H04L41/0631 , H04L41/064
摘要: 本发明公开了一种基于多次单类型采集结果的综合异常判断系统,涉及网络预警技术领域。所述系统包括:阈值生成单元和异常判断单元;所述阈值生成单元,在从被采集系统上获取到的采集数据的基础上,计算判断阈值;所述异常判断单元,在所述判断阈值和所述采集数据的基础上,判断被采集系统运行是正常还是异常。本发明所述系统对采集到的数据进行多种方式进行判断,从而在不接触被监测系统后台日志或硬件数据的情况下准确识别出被检测系统的运行状况,解决了因使用平均值计算抗干扰性太弱,固定阈值判断性能太差,阈值波动范围设置方案单一且低效的问题。
-
公开(公告)号:CN104778209B
公开(公告)日:2018-04-27
申请号:CN201510111752.X
申请日:2015-03-13
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F17/30
摘要: 本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。
-
公开(公告)号:CN106503859A
公开(公告)日:2017-03-15
申请号:CN201610963409.2
申请日:2016-10-28
申请人: 国家计算机网络与信息安全管理中心
摘要: 本发明提出一种基于在线社会关系网络的消息传播预测方法及装置,涉及社交媒体及大数据技术领域,该方法包括步骤1,对于一条消息d,获取其发出后在[0,T]时间段内,用户对其关注行为到达的时间序列;步骤2,对所述时间序列进行建模,对建模生成的模型进行学习,训练出所述模型的模型参数,根据所述模型参数,获取消息流行度预测函数。本发明能够应对数据涌发现象;通过MAPE对比,该方法准确率更高;形式灵活,可以应用到其他应用场景。
-
-
-
-
-
-
-
-
-