一种基于代码数据流增强大模型的漏洞检测方法

    公开(公告)号:CN118246029A

    公开(公告)日:2024-06-25

    申请号:CN202410451915.8

    申请日:2024-04-16

    Applicant: 重庆大学

    Abstract: 本发明涉及一种基于代码数据流增强大模型的漏洞检测方法,适用于任意代码预训练模型的漏洞检测下游任务。该方法主要由数据流图构建、数据流嵌入和正弦位置嵌入、合并数据流信息三个步骤组成。步骤一从函数粒度的源代码中解析数据流图并使用变量数据类型的词嵌入作为节点特征。步骤二通过图学习技术进行数据流图嵌入,通过正弦位置编码将数据流中的相对位置信息合并到图嵌入中,以保证漏洞数据流信息的完整性。步骤三将步骤二中产生的数据流嵌入与预训练模型产生的源代码句向量拼接,使用多层感知机进行漏洞检测。本发明能够通过与代码预训练模型相结合来增强漏洞检测方法在处理复杂数据流信息方面的能力,从而提高检测的性能和效率。

    基于检索和编辑结合的软件单元测试代码自动生成方法

    公开(公告)号:CN116820484A

    公开(公告)日:2023-09-29

    申请号:CN202310860338.3

    申请日:2023-07-13

    Applicant: 重庆大学

    Abstract: 本发明涉及一种基于检索和编辑结合的软件单元测试代码自动生成方法,基于给定的输入焦点测试和语料库,使用检索组件基于杰卡德相似度算法计算输入焦点测试和语料库中的每一条焦点测试的相似度,得到语料库中相似度值最高的相似焦点测试以及其相对应的相似测试断言;使用基于编辑的组件学习输入焦点测试及其相似的焦点测试实例的编辑模式,并将其应用于对相似测试断言的编辑,从而生成目标测试断言。本发明方法大大优于最先进的基线,同时本发明方法可以运用至实际的工作场景。

    一种基于区域划分的自适应随机软件测试方法

    公开(公告)号:CN115982031B

    公开(公告)日:2025-03-18

    申请号:CN202211721509.6

    申请日:2022-12-30

    Applicant: 重庆大学

    Abstract: 本发明涉及一种基于分区与自适应组件的自适应随机测试方法,包括如下步骤:选用公开数据集;构建自适应随机测试模型M;按要求选取被测程序s,并组成程序集D,同时确定M的输入域划分比例参数α;通过选择测试用例输入到程序中的结果,判断该程序是否有缺陷;其中的测试用例选择,通过构建的两个函数,按要求使用与其匹配的计算方式进行选择。本发明方法可以快速有效的提升FSCS‑ART的寻找缺陷的效率和准确性。

    一种面向大模型的对抗样本迭代式生成方法

    公开(公告)号:CN119622744A

    公开(公告)日:2025-03-14

    申请号:CN202411766376.3

    申请日:2024-12-04

    Applicant: 重庆大学

    Abstract: 本发明公开了一种面向大模型的对抗样本迭代式生成方法,包括构建基于候选标识符索引向量的搜索空间;利用贝叶斯优化框架生成对抗示例,通过高斯过程代理目标函数动态选择最优候选点;结合行列式点过程对候选样本进行多样性采样,确保生成的对抗示例覆盖范围广泛且具有高攻击性;迭代优化生成过程,根据攻击反馈动态调整方向,逐步优化对抗示例生成效率和成功率。本发明通过结合反馈优化和多样性采样技术,有效解决了现有对抗示例生成方法中的局部最优问题和效率困境。实验表明,本发明生成的对抗示例在漏洞预测、克隆检测和代码摘要等任务中表现出显著的攻击效果,能够充分测试深度代码模型的鲁棒性,为模型改进和优化提供了技术支持。

    一种基于关联规则与深度学习结合的集成演化方法

    公开(公告)号:CN117270946A

    公开(公告)日:2023-12-22

    申请号:CN202311228815.0

    申请日:2023-09-22

    Applicant: 重庆大学

    Abstract: 本发明涉及一种基于关联规则与深度学习结合的集成演化方法,使用分类器组件将修改前版本代码和修改后版本代码进行处理后,得到方法体信息序列Einput与方法名信息序列作为样本输入,并依据修改的方法体的token数量,将样本分类为单个方法体令牌修改的样本和多个方法体令牌修改的样本。将单个方法体令牌修改的样本输入到启发式规则组件当中,经过定位存在修改的令牌、构建替换对和匹配更新三个步骤后生成新方法名。如果没能匹配成功,则将样本输入到深度学习模型组件当中。深度学习模型组件负责处理启发式规则组件未能更新的样本以及多个方法体令牌修改的样本。经过文本嵌入,编码以及解码后,生成新方法名,最终实现方法名更新。

    一种基于代码变更大模型的漏洞检测方法

    公开(公告)号:CN119646819A

    公开(公告)日:2025-03-18

    申请号:CN202411687424.X

    申请日:2024-11-25

    Applicant: 重庆大学

    Abstract: 本发明提出了一种基于代码变更大模型的漏洞检测方法。包括如下步骤:对数据集进行预处理,删除重复样本和注释,仅保留代码文本,对代码文本进行token化并去除重复token。然后,遍历无漏洞特征的代码文本,计算与目标代码的Jaccard相似度,选择与无漏洞特征的代码文本中相似度最高的一个组成数据样本对。将无漏洞特征的代码文本视为变更前片段,目标代码视为变更后片段,提取代码间差异部分并标记为增加或删除的代码片段。使用基于代码变更的大模型CCT5的预训练权重初始化模型,调整模型结构,设置关键参数,在训练集上微调模型并更新参数,用于检测代码漏洞;将一段代码文本输入在微调任务中表现最佳的CCT5模型,该模型输出其是否具有漏洞的预测值。

    一种面向深度神经网络模型的测试用例选择方法

    公开(公告)号:CN118245382A

    公开(公告)日:2024-06-25

    申请号:CN202410452033.3

    申请日:2024-04-16

    Applicant: 重庆大学

    Abstract: 本发明涉及一种面向深度神经网络模型的测试用例选择方法,属于计算机软件测试技术领域,该发明的核心思想是,度量循环神经网络对每个测试用例的置信度与测试用例之间的相似程度,选择出具有代表性的低置信度测试用例。该发明主要由状态向量空间构建、不确定性与相似性度量和测试优先级排序三个步骤组成。1)对于给定的测试集输入,提取循环神经网络在每个时间步下输出的概率向量。2)在此向量空间内度量模型对每条测试用例的不确定性和模型状态改变的相似性。3)根据不确定性对测试用例集排序,根据相似性决定测试用例的去留。本发明适用于从大规模未标记的数据集中筛选出易引发循环神经网络错误行为的数据子集,以降低数据标注的成本。

    一种基于区域划分的自适应随机软件测试方法

    公开(公告)号:CN115982031A

    公开(公告)日:2023-04-18

    申请号:CN202211721509.6

    申请日:2022-12-30

    Applicant: 重庆大学

    Abstract: 本发明涉及一种基于分区与自适应组件的自适应随机测试方法,包括如下步骤:选用公开数据集;构建自适应随机测试模型M;按要求选取被测程序s,并组成程序集D,同时确定M的输入域划分比例参数α;通过选择测试用例输入到程序中的结果,判断该程序是否有缺陷;其中的测试用例选择,通过构建的两个函数,按要求使用与其匹配的计算方式进行选择。本发明方法可以快速有效的提升FSCS‑ART的寻找缺陷的效率和准确性。

    一种基于大模型的代码智能任务性能提升方法

    公开(公告)号:CN119621122A

    公开(公告)日:2025-03-14

    申请号:CN202411709424.5

    申请日:2024-11-27

    Applicant: 重庆大学

    Abstract: 本发明公开了一种基于大模型的代码智能任务性能提升方法,完成对低质量输入的动态修复。包括:输入数据x正常传递给目标深度代码模型,得到输出与概率信息,计算PPL、STOS、SMOS、AUC四种评估指标分数;利用梯度提升树,通过四种评估指标识别出需要修复的低质量输入xlow;使用Jaccard相似度进行检索,寻找k个与低质量输入xlow相似的代码示例#imgabs0#按照生成范式与选择范式构建提示#imgabs1#输入LLM进行低质量输入的修复;通过LLM返回的概率信息PLLM(x)计算困惑度,自适应选择Repairgen和Repairsel中置信度最高的输出作为修复的结果。

Patent Agency Ranking