-
公开(公告)号:CN113221112A
公开(公告)日:2021-08-06
申请号:CN202110590847.X
申请日:2021-05-28
Applicant: 广州大学
Abstract: 本发明公开了一种基于弱相关集成策略的恶意行为识别方法、系统和介质,该方法包括利用样本集构建基模型;基于XGBoost对恶意代码动态行为特征进行筛选;基于弱相关集成策略对基模型进行相关性检验;根据基模型的准确率确定其集成权重;基于Bagging集成策略对恶意代码进行分类。本发明在恶意代码识别中首先采用了XGBoost算法来确定集成学习基模型的个数,降低了集成学习中基模型的选择问题,还提高了恶意代码识别的准确性。另外,本发明采用了集成学习基模型的弱相关集成策略,弱化了使用集成策略解决恶意代码分类任务时普遍存在的基模型之间的相关性问题,并且构建了基于以准确率为导向的单模型权重确定模型,完成高效、准确的恶意代码识别任务。
-
公开(公告)号:CN110458187B
公开(公告)日:2020-07-31
申请号:CN201910565940.8
申请日:2019-06-27
Applicant: 广州大学
Abstract: 本发明公开了一种恶意代码家族聚类方法及系统,方法包括采用T‑SNE算法对原始恶意代码执行序列进行降维可视化,具体为:使用T‑SNE算法对每个数据点近邻的分布进行建模,其中近邻是指相互靠近数据点的集合;构建模型,通过非线性函数变换将数据点映射到相应概率分布上;对构建的模型进行训练,通过计算低维空间的条件概率,从而计算损失函数的梯度;使用K‑means算法对恶意代码家族进行聚类,具体为:确定分类个数K和聚类中心;通过计算对象与聚类中心的距离对所有对象进行簇划分;重新计算新的聚类中心,判断是否满足条件。系统包括降维可视化模块和聚类模块。通过本发明不仅降低了如何确定K‑means算法中k的难题,还提高了恶意代码家族聚类的准确性。
-
公开(公告)号:CN110458187A
公开(公告)日:2019-11-15
申请号:CN201910565940.8
申请日:2019-06-27
Applicant: 广州大学
Abstract: 本发明公开了一种恶意代码家族聚类方法及系统,方法包括采用T-SNE算法对原始恶意代码执行序列进行降维可视化,具体为:使用T-SNE算法对每个数据点近邻的分布进行建模,其中近邻是指相互靠近数据点的集合;构建模型,通过非线性函数变换将数据点映射到相应概率分布上;对构建的模型进行训练,通过计算低维空间的条件概率,从而计算损失函数的梯度;使用K-means算法对恶意代码家族进行聚类,具体为:确定分类个数K和聚类中心;通过计算对象与聚类中心的距离对所有对象进行簇划分;重新计算新的聚类中心,判断是否满足条件。系统包括降维可视化模块和聚类模块。通过本发明不仅降低了如何确定K-means算法中k的难题,还提高了恶意代码家族聚类的准确性。
-
公开(公告)号:CN111143842A
公开(公告)日:2020-05-12
申请号:CN201911270920.4
申请日:2019-12-12
Applicant: 广州大学
Abstract: 本发明公开了一种恶意代码检测方法及系统,方法包括:S1、将每个恶意代码运行过程中的WindowsAPI动作序列视作一个具有上下文关系的文本,分别使用TF-IDF和Doc2vec进行特征抽取;S2、在分别获得TF-IDF和Doc2vec特征矩阵后,将TF-IDF和Doc2vec抽取到的特征进行拼接,降维后获得恶意代码的特征矩阵;S3、构造基于聚类的集成分类改进模型,采用多个基学习器对数据集进行分类,并在最后采用投票的方式获得最终分类结果,S4、在预测阶段将样本分别输入每个基学习器中与之最近的单一类别类簇/SVM分类器中并输出预测类别,最后根据投票原则,学习器输出类别中占多数的类别为最终预测类别。本发明将TF-IDF和Doc2vec结合,不仅考虑恶意代码动作序列中API的频率,也考虑动作序列的上下文关联,提高恶意代码检测的准确性。
-
公开(公告)号:CN111143842B
公开(公告)日:2022-07-01
申请号:CN201911270920.4
申请日:2019-12-12
Applicant: 广州大学
Abstract: 本发明公开了一种恶意代码检测方法及系统,方法包括:S1、将每个恶意代码运行过程中的WindowsAPI动作序列视作一个具有上下文关系的文本,分别使用TF‑IDF和Doc2vec进行特征抽取;S2、在分别获得TF‑IDF和Doc2vec特征矩阵后,将TF‑IDF和Doc2vec抽取到的特征进行拼接,降维后获得恶意代码的特征矩阵;S3、构造基于聚类的集成分类改进模型,采用多个基学习器对数据集进行分类,并在最后采用投票的方式获得最终分类结果,S4、在预测阶段将样本分别输入每个基学习器中与之最近的单一类别类簇/SVM分类器中并输出预测类别,最后根据投票原则,学习器输出类别中占多数的类别为最终预测类别。本发明将TF‑IDF和Doc2vec结合,不仅考虑恶意代码动作序列中API的频率,也考虑动作序列的上下文关联,提高恶意代码检测的准确性。
-
公开(公告)号:CN113221112B
公开(公告)日:2022-03-04
申请号:CN202110590847.X
申请日:2021-05-28
Applicant: 广州大学
Abstract: 本发明公开了一种基于弱相关集成策略的恶意行为识别方法、系统和介质,该方法包括利用样本集构建基模型;基于XGBoost对恶意代码动态行为特征进行筛选;基于弱相关集成策略对基模型进行相关性检验;根据基模型的准确率确定其集成权重;基于Bagging集成策略对恶意代码进行分类。本发明在恶意代码识别中首先采用了XGBoost算法来确定集成学习基模型的个数,降低了集成学习中基模型的选择问题,还提高了恶意代码识别的准确性。另外,本发明采用了集成学习基模型的弱相关集成策略,弱化了使用集成策略解决恶意代码分类任务时普遍存在的基模型之间的相关性问题,并且构建了基于以准确率为导向的单模型权重确定模型,完成高效、准确的恶意代码识别任务。
-
-
-
-
-