一种恶意代码检测方法及系统

    公开(公告)号:CN111143842A

    公开(公告)日:2020-05-12

    申请号:CN201911270920.4

    申请日:2019-12-12

    Applicant: 广州大学

    Abstract: 本发明公开了一种恶意代码检测方法及系统,方法包括:S1、将每个恶意代码运行过程中的WindowsAPI动作序列视作一个具有上下文关系的文本,分别使用TF-IDF和Doc2vec进行特征抽取;S2、在分别获得TF-IDF和Doc2vec特征矩阵后,将TF-IDF和Doc2vec抽取到的特征进行拼接,降维后获得恶意代码的特征矩阵;S3、构造基于聚类的集成分类改进模型,采用多个基学习器对数据集进行分类,并在最后采用投票的方式获得最终分类结果,S4、在预测阶段将样本分别输入每个基学习器中与之最近的单一类别类簇/SVM分类器中并输出预测类别,最后根据投票原则,学习器输出类别中占多数的类别为最终预测类别。本发明将TF-IDF和Doc2vec结合,不仅考虑恶意代码动作序列中API的频率,也考虑动作序列的上下文关联,提高恶意代码检测的准确性。

    一种恶意代码家族聚类方法和系统

    公开(公告)号:CN110458187B

    公开(公告)日:2020-07-31

    申请号:CN201910565940.8

    申请日:2019-06-27

    Applicant: 广州大学

    Abstract: 本发明公开了一种恶意代码家族聚类方法及系统,方法包括采用T‑SNE算法对原始恶意代码执行序列进行降维可视化,具体为:使用T‑SNE算法对每个数据点近邻的分布进行建模,其中近邻是指相互靠近数据点的集合;构建模型,通过非线性函数变换将数据点映射到相应概率分布上;对构建的模型进行训练,通过计算低维空间的条件概率,从而计算损失函数的梯度;使用K‑means算法对恶意代码家族进行聚类,具体为:确定分类个数K和聚类中心;通过计算对象与聚类中心的距离对所有对象进行簇划分;重新计算新的聚类中心,判断是否满足条件。系统包括降维可视化模块和聚类模块。通过本发明不仅降低了如何确定K‑means算法中k的难题,还提高了恶意代码家族聚类的准确性。

    一种恶意代码家族聚类方法和系统

    公开(公告)号:CN110458187A

    公开(公告)日:2019-11-15

    申请号:CN201910565940.8

    申请日:2019-06-27

    Applicant: 广州大学

    Abstract: 本发明公开了一种恶意代码家族聚类方法及系统,方法包括采用T-SNE算法对原始恶意代码执行序列进行降维可视化,具体为:使用T-SNE算法对每个数据点近邻的分布进行建模,其中近邻是指相互靠近数据点的集合;构建模型,通过非线性函数变换将数据点映射到相应概率分布上;对构建的模型进行训练,通过计算低维空间的条件概率,从而计算损失函数的梯度;使用K-means算法对恶意代码家族进行聚类,具体为:确定分类个数K和聚类中心;通过计算对象与聚类中心的距离对所有对象进行簇划分;重新计算新的聚类中心,判断是否满足条件。系统包括降维可视化模块和聚类模块。通过本发明不仅降低了如何确定K-means算法中k的难题,还提高了恶意代码家族聚类的准确性。

    一种用于文本分类的词向量对抗样本生成方法及装置

    公开(公告)号:CN111444346B

    公开(公告)日:2023-04-18

    申请号:CN202010248226.9

    申请日:2020-03-31

    Applicant: 广州大学

    Abstract: 本发明公开了一种用于文本分类的词向量对抗样本生成方法及装置,所述方法包括:对需要文本分类的英文文本进行初始化和词嵌入,转化为对应的向量表示;根据损失函数对英文文本的单词词向量反复进行偏导运算,直至神经网络模型输出的分类结果出错;基于修改后的单词词向量,采用欧式距离公式选取空间内最靠近被修改词向量的单词,构造攻击替代词集;根据攻击替代词集对英文文本的单词进行随机替换,生成对抗样本。本发明能够有效生成针对文本分类的词向量对抗样本,在保证不改变语义、不被人察觉且不影响人类对于文本的识别分类的前提下,使得神经网络文本分类器识别出错,并保证对抗样本在降低神经网络识别概率的同时不出现非法字符。

    一种恶意代码检测方法及系统

    公开(公告)号:CN111143842B

    公开(公告)日:2022-07-01

    申请号:CN201911270920.4

    申请日:2019-12-12

    Applicant: 广州大学

    Abstract: 本发明公开了一种恶意代码检测方法及系统,方法包括:S1、将每个恶意代码运行过程中的WindowsAPI动作序列视作一个具有上下文关系的文本,分别使用TF‑IDF和Doc2vec进行特征抽取;S2、在分别获得TF‑IDF和Doc2vec特征矩阵后,将TF‑IDF和Doc2vec抽取到的特征进行拼接,降维后获得恶意代码的特征矩阵;S3、构造基于聚类的集成分类改进模型,采用多个基学习器对数据集进行分类,并在最后采用投票的方式获得最终分类结果,S4、在预测阶段将样本分别输入每个基学习器中与之最近的单一类别类簇/SVM分类器中并输出预测类别,最后根据投票原则,学习器输出类别中占多数的类别为最终预测类别。本发明将TF‑IDF和Doc2vec结合,不仅考虑恶意代码动作序列中API的频率,也考虑动作序列的上下文关联,提高恶意代码检测的准确性。

Patent Agency Ranking