一种基于定位关键词抽取的缺陷定位技术

    公开(公告)号:CN118114098A

    公开(公告)日:2024-05-31

    申请号:CN202410263221.1

    申请日:2024-03-07

    发明人: 邹卫琴 蔡碧瑜

    摘要: 本发明提出了一种基于定位关键词抽取的缺陷定位技术,该技术利用遗传算法抽取定位关键词,并基于该定位关键词训练关键词分类器,以构建高质量的查询文本,完成缺陷定位任务。本发明选择遗传算法作为关键词抽取技术,从缺陷报告文本中抽取适用于缺陷定位任务的最佳关键词,并将其构建为标准关键词集合,以训练关键词分类模型;训练阶段,模型的输入为缺陷报告的文本,利用多头注意力机制,让其充分理解上下文信息,完成分类任务;随后将训练好模型抽取的关键词重构为缺陷报告的查询文本,输入到缺陷定位工具中进行定位,得到可疑源代码文件列表。通过本发明,能够为开发者自动定位可能包含缺陷的源代码文件,帮助其快速把握缺陷所在的具体位置。

    一种基于缺陷报告噪音剔除和关键词扩充的缺陷定位方法

    公开(公告)号:CN116955185A

    公开(公告)日:2023-10-27

    申请号:CN202310919408.8

    申请日:2023-07-25

    发明人: 邹卫琴 王昭丹

    摘要: 本发明公开了一种基于缺陷报告噪音剔除和关键词扩充的缺陷定位方法,通过提高缺陷报告质量解决现有方法在抽取缺陷报告语义时忽略了文本噪音处理以及语义鸿沟的问题,属于缺陷定位领域。该方法首先通过抽取异常关键词和特征选择的方式,对缺陷报告的堆栈信息和刨除堆栈信息的详细问题描述进行噪音剔除;接着使用去噪后的缺陷报告作为初始查询,分别运行三种主流的基于信息检索的缺陷定位技术,并使用AdaBoost合并预测结果,再从该集成的缺陷文件推荐列表文件中抽取词频大于10%的关键词来扩充缺陷报告文本;最后使用词嵌入模型Word2Vec对缺陷报告和源代码文件抽取语义特征,比较其余弦相似性,生成最终的缺陷文件推荐列表,以完成缺陷定位。

    一种基于嵌入技术的函数级缺陷定位方法

    公开(公告)号:CN112328469B

    公开(公告)日:2022-03-18

    申请号:CN202011136892.X

    申请日:2020-10-22

    摘要: 本发明公开了一种基于嵌入技术的函数级缺陷定位方法,该方法使用基于抽象语法树的代码嵌入技术表征函数代码功能语义,使用词嵌入技术表征缺陷报告问题语义。最后使用卷积神经网络对函数和缺陷报告的语义特征进行融合并预测与给定缺陷相关的可疑函数。为了解决训练数据有限的问题,本发明提出使用预训练模型对缺陷报告和代码进行特征表示;同时,针对类实例数不平衡的问题,提出使用随机过采样的方法对其进行处理。通过在三个主流Java项目上试验发现,在推荐列表为10时,本发明所提方法的准确率能达到12.5%‑40%,在细粒度缺陷定位领域展示了较大的潜力,在主流Java软件项目上具有较大的潜在应用价值。

    一种基于嵌入技术的函数级缺陷定位方法

    公开(公告)号:CN112328469A

    公开(公告)日:2021-02-05

    申请号:CN202011136892.X

    申请日:2020-10-22

    摘要: 本发明公开了一种基于嵌入技术的函数级缺陷定位方法,该方法使用基于抽象语法树的代码嵌入技术表征函数代码功能语义,使用词嵌入技术表征缺陷报告问题语义。最后使用卷积神经网络对函数和缺陷报告的语义特征进行融合并预测与给定缺陷相关的可疑函数。为了解决训练数据有限的问题,本发明提出使用预训练模型对缺陷报告和代码进行特征表示;同时,针对类实例数不平衡的问题,提出使用随机过采样的方法对其进行处理。通过在三个主流Java项目上试验发现,在推荐列表为10时,本发明所提方法的准确率能达到12.5%‑40%,在细粒度缺陷定位领域展示了较大的潜力,在主流Java软件项目上具有较大的潜在应用价值。

    一种基于Bert预训练模型微调的缺陷报告优先级检测方法

    公开(公告)号:CN116467503A

    公开(公告)日:2023-07-21

    申请号:CN202310315190.5

    申请日:2023-03-28

    发明人: 邹卫琴 陈冰婷

    摘要: 本发明公开了一种基于Bert预训练模型微调的缺陷报告优先级检测方法,属于缺陷报告管理领域。该方法通过构建该领域专用语料库,微调Bert预训练模型来获取缺陷报告的词嵌入向量,接着以获取的词嵌入向量作为输入,使用卷积神经网络获得特征向量,最后使用支持向量机对缺陷报告的优先级进行自动检测。同时,本发明针对类不平衡问题,提出使用随机下采样的方法对其进行处理。通过在5个常用Eclipse项目上试验发现,本发明所提方法比基准方法准确率可提高8.1%,召回率可提高5.4%,F1值可提高4%。该方法可以更好的获取缺陷报告的语义特征,降低管理大量缺陷报告的成本,在缺陷报告管理领域具有较大的潜在应用价值。

    API指令检测方法、装置
    6.
    发明授权

    公开(公告)号:CN111651163B

    公开(公告)日:2023-05-02

    申请号:CN202010356444.4

    申请日:2020-04-29

    摘要: 本发明公开了一种API指令检测方法、装置,所述方法包括:对API文档中的语句进行划分,得到API指令语句和普通语句;将API指令语句分别和普通语句组成多个类平衡训练子集;其中类平衡训练子集中API指令语句所占比例至少达到预设的平衡数值;API指令检测模型基于API特征标准,以类平衡训练子集作为训练集进行训练;使用训练完成的API指令检测模型进行API指令检测。采用上述技术方案,可以有效、准确且高效率地从API文档中检测识别API指令。

    一种基于关键词引导的缺陷报告标题生成技术

    公开(公告)号:CN116881442A

    公开(公告)日:2023-10-13

    申请号:CN202310834703.3

    申请日:2023-07-07

    发明人: 邹卫琴 孟千爽

    摘要: 本发明提出了一种基于关键词引导的缺陷报告标题生成技术,采用关键词抽取技术从缺陷报告问题详细描述中抽取关键词;将抽取的关键词按是否在标题中出现以及出现的顺序重新筛选和排序,形成关键词引导;将关键词引导和标题通过特殊符号连接,作为模型的训练目标;训练过程中,BART模型的输入为关键词引导,生成标题时,充分利用语言模型的自回归机制,让其先生成关键词引导,再生成标题。通过本发明,能够为开发者自动生成高质量标题,帮助其快速把握缺陷报告中的重点内容。

    一种面向多可疑代码文件的缺陷定位方法

    公开(公告)号:CN112328475A

    公开(公告)日:2021-02-05

    申请号:CN202011173113.3

    申请日:2020-10-28

    发明人: 邹卫琴 张静宣

    IPC分类号: G06F11/36 G06N3/04 G06N3/08

    摘要: 本发明公开了一种面向多可疑代码文件的缺陷定位方法,首先利用三种基于信息检索的主流缺陷定位技术获取一个初始的可疑代码文件列表;随后基于三种特征(包括缺陷报告质量特征、文本相似性特征和缺陷报告者经验特征)构建机器学习模型,从初始的可疑代码文件列表抽取真实的可疑代码文件子集;针对这部分可疑代码文件子集,利用程序分析技术,对代码文件间的三种依赖关系(包括控制流依赖、数据流依赖和共现(同时出现)依赖)进行分析,从而定位到剩余的可疑代码文件。通过该方法,可以帮助软件开发人员在有限的时间内,及时准确地明晰缺陷修复所需处理的各个问题点,提高缺陷修复的效率和完备性,为软件质量的保障提供技术支持。

    代码标识符的归一化方法、装置

    公开(公告)号:CN111651164A

    公开(公告)日:2020-09-11

    申请号:CN202010356448.2

    申请日:2020-04-29

    IPC分类号: G06F8/41 G06K9/62

    摘要: 本发明公开了一种代码标识符的归一化方法、装置,包括:对代码标识符进行划分,得到组合词和缩写词;分别对组合词和缩写词进行归一化,其中组合词归一化包括:依据组合词中包括的字符,划分得到硬词和软词;采用词句拆分算法对硬词进行拆分,依据历史拆分结果对软词进行拆分;其中缩写词归一化包括:抽取与缩写词相关联的编程代码中的代码标识符,构建缩写词词典;依据所述缩写词词典进行缩写词扩充;对剩余缩写词依据历史扩充结果进行扩充。采用上述技术方案,可以有效、准确且高效率地实现代码标识符的归一化,提高代码标识符归一化结果的理解、表达力效果,帮助软件开发人员快速准确地理解代码标识符的语义功能。

    一种面向文本检索缺陷定位的查询质量预测方法

    公开(公告)号:CN116737534A

    公开(公告)日:2023-09-12

    申请号:CN202310315225.5

    申请日:2023-03-28

    发明人: 邹卫琴 刘文杰

    摘要: 本发明公开了一种面向文本检索缺陷定位的查询质量预测方法,属于缺陷定位领域,该方法首先使用BugLocator缺陷定位工具,根据推荐列表的前k个可疑代码文件中是否包含真正的缺陷文件对缺陷报告进行类标签,接着从缺陷报告及源代码文件中提取文本检索领域以及缺陷定位特定领域相关的五类特征,最后使用随机森林机器学习模型来构建查询质量预测模型预测给定的缺陷报告的质量。通过该方法,可以帮助软件开发人员在定位缺陷之前,根据缺陷报告质量决定是否重构缺陷报告,提高缺陷修复的效率,为软件修复提供技术支持。