-
公开(公告)号:CN117609497A
公开(公告)日:2024-02-27
申请号:CN202311343043.5
申请日:2023-10-17
Applicant: 国家计算机网络与信息安全管理中心 , 中网数安(北京)科技有限公司 , 联洋国融(北京)科技有限公司
IPC: G06F16/35 , G06F18/214 , G06F18/22 , G06F18/2431
Abstract: 本发明提供一种文本有害内容无监督识别方法及装置。所述方法包括:获取待识别的多个文本,计算每个待识别文本的特征向量;计算有害文本分类库中每个有害文本类别的特征向量,有害文本分类库包括每种有害文本类别的标识词;计算待识别文本的特征向量与每个有害文本类别的特征向量的相似度,若所述相似度的最大值超过设定阈值,则所述最大值对应的有害文本类别为所述待识别文本的类别。本发明通过构建有害文本分类库,并通过相似度计算,能够对文本中的有害内容进行无监督识别,解决了基于有监督学习的现有识别方法存在的需要不断地对新的大量文本数据进行标注,耗费大量的人工和时间的问题。
-
公开(公告)号:CN105468677B
公开(公告)日:2019-11-19
申请号:CN201510781245.7
申请日:2015-11-13
Applicant: 国家计算机网络与信息安全管理中心
Abstract: 本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。
-
公开(公告)号:CN109934251B
公开(公告)日:2021-08-06
申请号:CN201811615581.4
申请日:2018-12-27
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司
IPC: G06K9/62
Abstract: 本发明涉及一种用于小语种文本识别的方法,包括以下步骤:S1.构建来源于不同语种的训练文本集;S2.对训练文本集中的文本进行基于字节的N‑gramrank特征的提取;S3.对训练文本集中的文本进行基于互信息的度量特征的提取,即计算文本中的所有信息字节在单个语种中的信息度量;S4.对训练文本集中的文本进行基于转移概率的概率特征的提取,即计算文本中所有相邻字节能在单个语种中表达完整信息的概率;S5.利用步骤S2~S4提取的特征训练分类器;S6.对待识别的文本按照步骤S2~S4进行特征的提取,然后将提取的特征输入分类器中进行识别,分类器输出语种识别结果。
-
公开(公告)号:CN110008244A
公开(公告)日:2019-07-12
申请号:CN201910247726.8
申请日:2019-03-29
Applicant: 国家计算机网络与信息安全管理中心 , 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司 , 北京天融信安全技术有限公司
IPC: G06F16/2455 , G06F16/2453
Abstract: 本申请实施例公开了一种数据查询方法及数据查询装置,所述方法包括:获取数据查询信息;分析所述数据查询信息,并分解得到子查询信息;确定用以查询所述子查询信息的存储引擎;以第一预设算法对所述子查询信息进行第一处理,并发送进行了所述第一处理后的子查询信息至所述存储引擎;接收所述存储引擎反馈的子查询结果;对所述子查询结果进行第二处理,得到查询结果。其能够通过对数据查询信息的分解,充分利用存储引擎对分解后进行了第一处理的子查询信息的查询优势,快速查询得到相应子查询信息的子查询结果,进而提高对数据查询信息的查询性能以及分析效率。
-
公开(公告)号:CN109934251A
公开(公告)日:2019-06-25
申请号:CN201811615581.4
申请日:2018-12-27
Applicant: 国家计算机网络与信息安全管理中心广东分中心 , 北京天融信网络安全技术有限公司
IPC: G06K9/62
Abstract: 本发明涉及一种用于小语种文本识别的方法,包括以下步骤:S1.构建来源于不同语种的训练文本集;S2.对训练文本集中的文本进行基于字节的N-gramrank特征的提取;S3.对训练文本集中的文本进行基于互信息的度量特征的提取,即计算文本中的所有信息字节在单个语种中的信息度量;S4.对训练文本集中的文本进行基于转移概率的概率特征的提取,即计算文本中所有相邻字节能在单个语种中表达完整信息的概率;S5.利用步骤S2~S4提取的特征训练分类器;S6.对待识别的文本按照步骤S2~S4进行特征的提取,然后将提取的特征输入分类器中进行识别,分类器输出语种识别结果。
-
公开(公告)号:CN105468677A
公开(公告)日:2016-04-06
申请号:CN201510781245.7
申请日:2015-11-13
Applicant: 国家计算机网络与信息安全管理中心
IPC: G06F17/30
Abstract: 本发明提供一种基于图结构的日志聚类方法,包括,基于文本分词、向量相似度以及最大连通子图对日志进行聚类,获取特征库;并根据特征库中的类别特征对海量日志进行类别标记;该方法无需人工指定聚类数目,自动识别海量日志中最合适的类别数目;另外,该方法可对日志进行精准分类,为海量日志数据挖掘奠定了基础。
-
-
-
-
-