-
公开(公告)号:CN113792202B
公开(公告)日:2023-05-05
申请号:CN202111015189.8
申请日:2021-08-31
申请人: 中国电子科技集团公司第三十研究所 , 深圳市网联安瑞网络科技有限公司
IPC分类号: G06F16/906 , G06F16/26
摘要: 本发明提供一种用户分类的筛选方法,包括用户历史数据的处理步骤和用户新增数据的处理步骤;用户历史数据的处理步骤包括:获取用户历史数据;根据预设的分类规则引擎对用户历史数据组成的样本集群按照关键进行分类得到多个样本类群;用户新增数据的处理步骤包括:对每个样本类群的用户历史数据进行量化,得到每一个样本类群的类群特征信息,将每个样本类群的关键词和类群特征信息作为结构化数据;获取用户新增数据并提取用户新增数据的结构化数据,通过将用户新增数据的结构化数据与分类规则引擎中每一个样本类群的结构化数据进行匹配进行分类。本发明通过设置分类规则引擎有效合理地将全量用户进行分类,用户信息管理更加清晰高效,且使用方便。
-
公开(公告)号:CN113792202A
公开(公告)日:2021-12-14
申请号:CN202111015189.8
申请日:2021-08-31
申请人: 中国电子科技集团公司第三十研究所 , 深圳市网联安瑞网络科技有限公司
IPC分类号: G06F16/906 , G06F16/26
摘要: 本发明提供一种用户分类的筛选方法,包括用户历史数据的处理步骤和用户新增数据的处理步骤;用户历史数据的处理步骤包括:获取用户历史数据;根据预设的分类规则引擎对用户历史数据组成的样本集群按照关键进行分类得到多个样本类群;用户新增数据的处理步骤包括:对每个样本类群的用户历史数据进行量化,得到每一个样本类群的类群特征信息,将每个样本类群的关键词和类群特征信息作为结构化数据;获取用户新增数据并提取用户新增数据的结构化数据,通过将用户新增数据的结构化数据与分类规则引擎中每一个样本类群的结构化数据进行匹配进行分类。本发明通过设置分类规则引擎有效合理地将全量用户进行分类,用户信息管理更加清晰高效,且使用方便。
-
公开(公告)号:CN117951246B
公开(公告)日:2024-05-28
申请号:CN202410351116.3
申请日:2024-03-26
申请人: 中国电子科技集团公司第三十研究所
IPC分类号: G06F16/31 , G06F16/36 , G06F16/335 , G06F40/30 , G06N3/0455 , G06F16/23 , G06F16/22 , G06F16/28
摘要: 本发明公开了一种网络技术新词发现及应用领域预测方法和系统,涉及自然语言处理领域,用于提高网络技术新词发现和领域预测的准确度。本发明包括三个部分,第一部分是利用人工收集和Glove词向量模型获取相似词的方式,初步确定种子新词及其应用领域;第二部分是采集外部知识库中最新更新的科学文本数据入库;第三部分是融合使用多种NLP模型确定网络技术新词并且对相应应用领域进行预测。本发明深度挖掘了网络技术新词的自身特征,充分考虑其在语句中所表达的含义,在保证正确率的条件下,提高新词召回率;利用最大公共子串对新词进行应用领域合并,进一步提高了应用领域预测准确率。
-
公开(公告)号:CN114936723B
公开(公告)日:2023-04-14
申请号:CN202210856300.4
申请日:2022-07-21
申请人: 中国电子科技集团公司第三十研究所 , 国家计算机网络与信息安全管理中心
摘要: 本发明涉及数据挖掘技术领域,公开了一种基于数据增强的社交网络用户属性预测方法及系统,该属性预测方法,基于用户的历史行为序列,推断用户未来一段时间的行为序列,通过将历史行为序列与预测得到的行为序列进行拼接,扩大行为序列的长度,对用户的行为数据进行增强。本发明解决了现有技术存在的在线网络用户行为序列长度较短时不能为用户属性预测任务提供足够信息、从而导致用户属性预测的预测准确性低的问题。
-
公开(公告)号:CN115002045A
公开(公告)日:2022-09-02
申请号:CN202210845956.6
申请日:2022-07-19
申请人: 中国电子科技集团公司第三十研究所
IPC分类号: H04L47/2483 , G06N3/04
摘要: 本发明涉及计算机网络技术领域,公开了一种基于孪生网络的暗网站点会话识别方法及系统,该识别方法,基于Meek网桥捕获的暗网会话,构建孪生神经网络模型对暗网站点进行识别。本发明解决了现有技术存在的难以深度表征Meek流量下暗网站点会话的特征、模型泛化性不足、难以保障识别暗网站点会话的准确性等问题。
-
公开(公告)号:CN115001861A
公开(公告)日:2022-09-02
申请号:CN202210852995.9
申请日:2022-07-20
申请人: 中国电子科技集团公司第三十研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: H04L9/40
摘要: 本发明涉及计算机网络技术领域,公开了一种基于混合指纹特征的暗网服务异常检测方法及系统,该异常检测方法,对暗网站点的流量数据和状态数据进行分析,通过分析状态数据和流量数据,提取暗网站点的单点指纹特征、话题关联的指纹特征、流量指纹信息,进行暗网服务异常检测。本发明解决了解决现有技术存在的难以对暗网站点的重要度进行整体地准确检测等问题。
-
公开(公告)号:CN114915599A
公开(公告)日:2022-08-16
申请号:CN202210845605.5
申请日:2022-07-19
申请人: 中国电子科技集团公司第三十研究所 , 国家计算机网络与信息安全管理中心
IPC分类号: H04L47/2483 , H04L47/2441 , G06N3/04 , G06N3/08 , G06K9/62
摘要: 本发明涉及计算机网络技术领域,公开了一种基于半监督聚类学习的暗网站点会话识别方法及系统,该会话识别方法,利用深度学习CNN算法自动提取Obfs4网桥下暗网站点会话的特征,并利半监督聚类算法对暗网站点的onion地址进行识别。本发明解决了现有技术存在的泛化性不足、识别准确度较低、实用性不足等问题。
-
公开(公告)号:CN109901869B
公开(公告)日:2022-03-18
申请号:CN201910071876.8
申请日:2019-01-25
申请人: 中国电子科技集团公司第三十研究所
摘要: 本发明公开了一种基于词袋模型的计算机程序分类方法,将计算机程序转换为一个由自定义函数或基本块为单位的API调用序列;计算机程序提取的API调用序列是API调用的组合,一个API调用序列中每个API调用存在上下文依赖关系,利用API调用序列训练基于上下文关系的词袋模型,得到每一个API调用序列以及API调用的向量表示,通过API调用序列的欧式距离计算相似度,判定未知计算机程序的分类。本发明采用三层神经网络算法训练计算机程序代码,在很好的学习到代码的整体语义特征和上下文计算机程序代码基因的信息的同时,极大的降低了计算复杂度;基于深度学习的计算机程序的基列向量化表示和聚类方法检测具有较好的效果。
-
公开(公告)号:CN111835785A
公开(公告)日:2020-10-27
申请号:CN202010716143.8
申请日:2020-07-23
申请人: 中国电子科技集团公司第三十研究所
摘要: 本发明涉及信息安全技术领域,本发明公开了一种基于查询机制的I2P网络节点的探测方法,根据对I2P网络节点通信协议的分析,将原始代码中的节点信息进行处理并提供获取接口,利用网络节点发现机制,不断收集节点信息,建立I2P网络节点基本数据库和关系数据库。本发明对I2P网络进行全方面的探测,可以在发现尽可能多的I2P网络节点的同时,摆脱了对硬件和性能的约束。节点信息会自动进行更新,防止节点信息过期导致数据不准确和节点位置信息统计错误。节点地址位置信息会单独探测和存储,使得该功能模块与整个软件实现解耦,便于维护和扩展。
-
公开(公告)号:CN111814068A
公开(公告)日:2020-10-23
申请号:CN202010716026.1
申请日:2020-07-23
申请人: 中国电子科技集团公司第三十研究所
IPC分类号: G06F16/9536 , G06F16/33
摘要: 本发明涉及信息安全技术领域,本发明公开了一种ZeroNet博客及论坛文本抓取及分析方法,首先调用浏览器进行模拟登陆获取网站数据,接着解析本地数据库获取文本内容,在获取文本后使用半监督LDA主题模型对文本进行建模分析并进行分类,基于建模结果能够预测新文本的类别,以实现对ZeroNet博客及论坛文本的监管。本发明使用解析本地数据库的方式获取博客及论坛网站的文本数据,克服了传统爬虫无法获取ZeroNet网站全部文本内容的缺陷。本发明使用半监督LDA主题模型进行建模分析,可以根据不同应用情形进行手动调整,具有较高的精确度和灵活性。
-
-
-
-
-
-
-
-
-