-
公开(公告)号:CN117609497A
公开(公告)日:2024-02-27
申请号:CN202311343043.5
申请日:2023-10-17
申请人: 国家计算机网络与信息安全管理中心 , 中网数安(北京)科技有限公司 , 联洋国融(北京)科技有限公司
IPC分类号: G06F16/35 , G06F18/214 , G06F18/22 , G06F18/2431
摘要: 本发明提供一种文本有害内容无监督识别方法及装置。所述方法包括:获取待识别的多个文本,计算每个待识别文本的特征向量;计算有害文本分类库中每个有害文本类别的特征向量,有害文本分类库包括每种有害文本类别的标识词;计算待识别文本的特征向量与每个有害文本类别的特征向量的相似度,若所述相似度的最大值超过设定阈值,则所述最大值对应的有害文本类别为所述待识别文本的类别。本发明通过构建有害文本分类库,并通过相似度计算,能够对文本中的有害内容进行无监督识别,解决了基于有监督学习的现有识别方法存在的需要不断地对新的大量文本数据进行标注,耗费大量的人工和时间的问题。
-
公开(公告)号:CN110008244A
公开(公告)日:2019-07-12
申请号:CN201910247726.8
申请日:2019-03-29
申请人: 国家计算机网络与信息安全管理中心 , 北京天融信网络安全技术有限公司 , 北京天融信科技有限公司 , 北京天融信软件有限公司 , 北京天融信安全技术有限公司
IPC分类号: G06F16/2455 , G06F16/2453
摘要: 本申请实施例公开了一种数据查询方法及数据查询装置,所述方法包括:获取数据查询信息;分析所述数据查询信息,并分解得到子查询信息;确定用以查询所述子查询信息的存储引擎;以第一预设算法对所述子查询信息进行第一处理,并发送进行了所述第一处理后的子查询信息至所述存储引擎;接收所述存储引擎反馈的子查询结果;对所述子查询结果进行第二处理,得到查询结果。其能够通过对数据查询信息的分解,充分利用存储引擎对分解后进行了第一处理的子查询信息的查询优势,快速查询得到相应子查询信息的子查询结果,进而提高对数据查询信息的查询性能以及分析效率。
-