一种用户分类的筛选方法

    公开(公告)号:CN113792202B

    公开(公告)日:2023-05-05

    申请号:CN202111015189.8

    申请日:2021-08-31

    IPC分类号: G06F16/906 G06F16/26

    摘要: 本发明提供一种用户分类的筛选方法,包括用户历史数据的处理步骤和用户新增数据的处理步骤;用户历史数据的处理步骤包括:获取用户历史数据;根据预设的分类规则引擎对用户历史数据组成的样本集群按照关键进行分类得到多个样本类群;用户新增数据的处理步骤包括:对每个样本类群的用户历史数据进行量化,得到每一个样本类群的类群特征信息,将每个样本类群的关键词和类群特征信息作为结构化数据;获取用户新增数据并提取用户新增数据的结构化数据,通过将用户新增数据的结构化数据与分类规则引擎中每一个样本类群的结构化数据进行匹配进行分类。本发明通过设置分类规则引擎有效合理地将全量用户进行分类,用户信息管理更加清晰高效,且使用方便。

    一种用户分类的筛选方法

    公开(公告)号:CN113792202A

    公开(公告)日:2021-12-14

    申请号:CN202111015189.8

    申请日:2021-08-31

    IPC分类号: G06F16/906 G06F16/26

    摘要: 本发明提供一种用户分类的筛选方法,包括用户历史数据的处理步骤和用户新增数据的处理步骤;用户历史数据的处理步骤包括:获取用户历史数据;根据预设的分类规则引擎对用户历史数据组成的样本集群按照关键进行分类得到多个样本类群;用户新增数据的处理步骤包括:对每个样本类群的用户历史数据进行量化,得到每一个样本类群的类群特征信息,将每个样本类群的关键词和类群特征信息作为结构化数据;获取用户新增数据并提取用户新增数据的结构化数据,通过将用户新增数据的结构化数据与分类规则引擎中每一个样本类群的结构化数据进行匹配进行分类。本发明通过设置分类规则引擎有效合理地将全量用户进行分类,用户信息管理更加清晰高效,且使用方便。

    一种基于词袋模型的计算机程序分类方法

    公开(公告)号:CN109901869B

    公开(公告)日:2022-03-18

    申请号:CN201910071876.8

    申请日:2019-01-25

    IPC分类号: G06F8/70 G06K9/62 G06N3/04

    摘要: 本发明公开了一种基于词袋模型的计算机程序分类方法,将计算机程序转换为一个由自定义函数或基本块为单位的API调用序列;计算机程序提取的API调用序列是API调用的组合,一个API调用序列中每个API调用存在上下文依赖关系,利用API调用序列训练基于上下文关系的词袋模型,得到每一个API调用序列以及API调用的向量表示,通过API调用序列的欧式距离计算相似度,判定未知计算机程序的分类。本发明采用三层神经网络算法训练计算机程序代码,在很好的学习到代码的整体语义特征和上下文计算机程序代码基因的信息的同时,极大的降低了计算复杂度;基于深度学习的计算机程序的基列向量化表示和聚类方法检测具有较好的效果。

    一种基于查询机制的I2P网络节点的探测方法

    公开(公告)号:CN111835785A

    公开(公告)日:2020-10-27

    申请号:CN202010716143.8

    申请日:2020-07-23

    摘要: 本发明涉及信息安全技术领域,本发明公开了一种基于查询机制的I2P网络节点的探测方法,根据对I2P网络节点通信协议的分析,将原始代码中的节点信息进行处理并提供获取接口,利用网络节点发现机制,不断收集节点信息,建立I2P网络节点基本数据库和关系数据库。本发明对I2P网络进行全方面的探测,可以在发现尽可能多的I2P网络节点的同时,摆脱了对硬件和性能的约束。节点信息会自动进行更新,防止节点信息过期导致数据不准确和节点位置信息统计错误。节点地址位置信息会单独探测和存储,使得该功能模块与整个软件实现解耦,便于维护和扩展。

    一种ZeroNet博客及论坛文本抓取及分析方法

    公开(公告)号:CN111814068A

    公开(公告)日:2020-10-23

    申请号:CN202010716026.1

    申请日:2020-07-23

    IPC分类号: G06F16/9536 G06F16/33

    摘要: 本发明涉及信息安全技术领域,本发明公开了一种ZeroNet博客及论坛文本抓取及分析方法,首先调用浏览器进行模拟登陆获取网站数据,接着解析本地数据库获取文本内容,在获取文本后使用半监督LDA主题模型对文本进行建模分析并进行分类,基于建模结果能够预测新文本的类别,以实现对ZeroNet博客及论坛文本的监管。本发明使用解析本地数据库的方式获取博客及论坛网站的文本数据,克服了传统爬虫无法获取ZeroNet网站全部文本内容的缺陷。本发明使用半监督LDA主题模型进行建模分析,可以根据不同应用情形进行手动调整,具有较高的精确度和灵活性。