-
公开(公告)号:CN118377586A
公开(公告)日:2024-07-23
申请号:CN202410394444.1
申请日:2024-04-02
申请人: 国家计算机网络与信息安全管理中心 , 长安通信科技有限责任公司 , 中国科学院软件研究所
IPC分类号: G06F9/46 , G06F9/50 , G06F16/2453
摘要: 本发明涉及大数据技术领域,公开了一种面向SQL任务进行流量合并和计算合并的优化方法,首先在Client端一次提交多个任务,Server端执行Client提交的多个任务;在Server端对相同类型的多个实时SQL任务,对其进行解析出Source、Rule、Sink的标注结构,具体通过Json语法解析或SQL语法解析Rule参数,解析出SQL语句,输入输出信息和优化选项;解析出的多个实时SQL语句的信息均为SELECT WHERE格式,多个实时SQL任务语句中的WHERE条件部分包含的表达式均为可以进行优化的表达式然后对Source部分进行判断;判断多个实时SQL的Source的Topic是否相同;是则对多个SQL任务进行合并。本发明对于配置了相同计算资源的Server,仅考虑计算资源的情况下,可以实现支撑实时SQL任务数的多倍提升。
-
公开(公告)号:CN118363980B
公开(公告)日:2024-09-24
申请号:CN202410788650.0
申请日:2024-06-19
申请人: 长安通信科技有限责任公司 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/242 , G06F16/22 , G06F16/28 , G06F18/22 , G06F18/23
摘要: 本发明涉及数据处理技术领域,具体涉及一种SQL语句智能合并方法及系统,包括:获取历史数据库中分句向量和合句向量,待合并的SQL分句;将分句作为底层根据每任意两个合句向量之间的相似情况,构建预测树结构,并构建层次聚类树;根据预测树结构与层次聚类树中节点之间的匹配关系确定最优聚类层;对最优聚类层中聚类簇进行特征提取获得每个聚类簇的特征向量;根据特征向量之间的相似情况进行特征匹配的结果,并进行特征合并,确定合并特征向量;根据待合并的SQL分句与合并特征向量之间的特征匹配情况,计算待合并的SQL分句之间的合并概率;基于合并概率对待合并的SQL分句进行合并。本发明可以获得精度更好的SQL语句合并结果。
-
公开(公告)号:CN118363980A
公开(公告)日:2024-07-19
申请号:CN202410788650.0
申请日:2024-06-19
申请人: 长安通信科技有限责任公司 , 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/242 , G06F16/22 , G06F16/28 , G06F18/22 , G06F18/23
摘要: 本发明涉及数据处理技术领域,具体涉及一种SQL语句智能合并方法及系统,包括:获取历史数据库中分句向量和合句向量,待合并的SQL分句;将分句作为底层根据每任意两个合句向量之间的相似情况,构建预测树结构,并构建层次聚类树;根据预测树结构与层次聚类树中节点之间的匹配关系确定最优聚类层;对最优聚类层中聚类簇进行特征提取获得每个聚类簇的特征向量;根据特征向量之间的相似情况进行特征匹配的结果,并进行特征合并,确定合并特征向量;根据待合并的SQL分句与合并特征向量之间的特征匹配情况,计算待合并的SQL分句之间的合并概率;基于合并概率对待合并的SQL分句进行合并。本发明可以获得精度更好的SQL语句合并结果。
-
公开(公告)号:CN118587069A
公开(公告)日:2024-09-03
申请号:CN202410753996.7
申请日:2024-06-12
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06Q50/26 , G06F18/241
摘要: 本发明涉及数据出境安全技术领域,公开了一种基于分类分级的数据出境合规路径推荐方法及系统,根据数据处理者是否属于关键信息基础设施运营者、实际数据出境类型、数据敏感程度、数据链路情况,判断与申报材料相比是否有错误,是则根据不同对比情况给出合规建议,否则该数据出境业务场景合规,无需额外处理;判断数据出境业务场景是否属于预设可免予申报数据出境安全评估、订立个人信息出境标准合同、通过个人信息保护认证的场景,若全部出境场景均属于,则结束;根据数据处理者是否属于关键信息基础设施运营者、实际出境数据明细日志,结合预定义的数据分类分级标准,分析出境数据类型、数据敏感程度、不同时间范围内出境的数据数量以及自然人数,完成数据出境合规路径的自动化推荐。本发明结合数据处理者境内数据出境出口日志数据,实现对数据处理者数据出境合规三种路径的推荐以及合规后常态化监测,并根据实际问题给出合理处置建议。
-
公开(公告)号:CN114077838A
公开(公告)日:2022-02-22
申请号:CN202010825717.5
申请日:2020-08-17
申请人: 国家计算机网络与信息安全管理中心 , 中国科学院信息工程研究所
IPC分类号: G06F40/295 , G06F40/284
摘要: 本发明提供一种基于词表示特征的命名实体识别方法及电子装置,包括:对待检测文本进行分词,获取各词语的基础特征;将各词语组成一词语序列,并对每一词语进行编码,提取编码结果的词嵌入特征;根据词语序列的设定权重与设定主题,生成一词向量序列,提取词向量序列的词表示特征;将基础特征、词嵌入特征及词表示特征输入一实体识别模型,获取待检测文本中的命名实体。本发明采用了word2vec训练的词嵌入及LSTM训练的词表示,捕获了语句的长期依赖性,充分的利用了长距离上下文信息对命名实体进行识别,相对于传统模型有较好的改进,提高了微博命名实体的识别的准确率。
-
公开(公告)号:CN113742478A
公开(公告)日:2021-12-03
申请号:CN202010474192.5
申请日:2020-05-29
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F16/33 , G06F40/295 , G06N3/04
摘要: 本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。
-
公开(公告)号:CN113742478B
公开(公告)日:2023-09-05
申请号:CN202010474192.5
申请日:2020-05-29
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/35 , G06F16/33 , G06F40/295 , G06N3/0464
摘要: 本发明公开了一种针对海量文本数据的定向筛选架构及方法。本方法步骤包括:1)使用关键词匹配方法从待筛选文本中获取疑似目标文本;2)从已标注的目标文本中提取常用句式,并分为与业务强相关句式、与业务弱相关句式;对待筛选文本进行模糊句式匹配,如果与业务强相关句式匹配,则将文本判断为目标文本,否则为疑似目标文本;3)对每一疑似目标文本进行分类;4)根据疑似目标文本匹配上的关键词的个数确定文本的评估值E1;根据分类判别结果,确定文本的评估值E2;基于文本与外部辅助语料的信息匹配结果确定文本的评估值E3;然后基于评估值E1~E3,计算得到文本最终评分反馈给研判层;5)研判层确定反馈的文本是否为目标文本。
-
公开(公告)号:CN118585509A
公开(公告)日:2024-09-03
申请号:CN202410753997.1
申请日:2024-06-12
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: G06F16/21 , G06F16/2455 , G06F16/28 , G06N5/022 , G06N5/04 , G06Q50/18 , G06F18/241
摘要: 本发明涉及出境数据数字化处理技术领域,公开了基于结构化规则的出境法律法规知识库构建方法及系统,首先根据数据出境合规的法律法规原文条款判定表述逻辑,对条文进行拆解;对拆分后的条文,进行标准化规则梳理,在条文中提取四要素,包括数据处理者、数据出境行为、违规标志、判定结果;再对条款自然语言描述的标准化规则进行整理归纳,对标准化规则的四要素进一步进行细分,转变成计算机理解并自动判断的数字化规则描述;基于数字化规则描述,构建数据出境合规逻辑推理模型;获取数据处理者实际数据,基于逻辑判断模型输出结果,并对判定结果进行汇总整理并输出。本发明通过对数据出境相关的法律法规条目进行标准化、数字化,构建统一的数字化描述准则,形成数据出境合规规则知识库,辅助计算机完成自动审核工作,降低人工参与程度,提高合规效率和准确度。
-
公开(公告)号:CN117336080A
公开(公告)日:2024-01-02
申请号:CN202311383389.8
申请日:2023-10-24
申请人: 国家计算机网络与信息安全管理中心
IPC分类号: H04L9/40
摘要: 本发明涉及病毒检测技术领域,公开了一种基于流量和指标的暴力破解检测系统及方法,包括安装在受监测服务器上的指标采集模块、指标分析模块、流量采集模块和流量分析模块,流量采集模块与所述流量分析模块连接,指标采集模块与所述指标分析模块连接,与流量分析模块和指标分析模块连接有检测服务器,检测服务器设有暴力破解行为检测模块,与所述检测服务器连接有数据库服务器,数据库服务器设有异常行为库模块,与所述数据库服务器连接有界面服务器,所述界面服务器设有告警界面模块。本发明解决当前基于文件扫描和样本分析的检测方法中的检测耗时久,占用资源高的问题,同时可缩短从行为发生到行为被检测的时间,提升检测的时效性。
-
-
-
-
-
-
-
-