一种基于Transformer的编程问题帖标题自动生成方法

    公开(公告)号:CN114238621A

    公开(公告)日:2022-03-25

    申请号:CN202111441323.0

    申请日:2021-11-30

    申请人: 南通大学

    摘要: 本发明提供了一种基于Transformer的编程问题帖标题自动生成方法,属于计算机应用技术领域;其技术方案为:包括以下步骤:(1)收集开发人员问答网站上与Java、C#、Python和JavaScript四种编程语言相关的问题帖,基于三种启发式规则以过滤掉其中的低质量问题帖;(2)基于上述构建的语料库,对构建的基于Transformer的T5模型进行微调,利用AdaFactor优化器以及注意力机制进行优化,构建出问题帖标题自动生成模型。本发明的有益效果为:为开发人员问答网站(例如Stack Overflow)的问题帖生成既简洁又准确的标题,实现了针对Java、C#、Python和JavaScript四种编程语言的问题帖标题生成的自动化。

    一种基于GraphCodeBERT的安全漏洞检测方法

    公开(公告)号:CN114491540B

    公开(公告)日:2024-09-10

    申请号:CN202210161142.0

    申请日:2022-02-22

    申请人: 南通大学

    摘要: 本发明提供了一种基于GraphCodeBERT的安全漏洞检测方法,其技术方案为:首先对源代码进行预处理,得到数据流词元、源代码词元和注释词元,作为安全漏洞检测模型的输入,模型采用编码器‑解码器框架,编码器端使用预训练的GraphCodeBERT,解码器端使用双向长短期记忆(BiLSTM)模型作为分类模型,最终输出一个二分类结果,用来判断代码是否包含安全漏洞。本发明的有益效果为:基于函数粒度,将安全漏洞检测问题建模为二分类问题;与传统的词向量方法不同,通过在编码器端考虑数据流信息,使得模型更容易学到漏洞模式。

    一种基于优化随机森林的缺陷报告严重程度预测方法

    公开(公告)号:CN114186644A

    公开(公告)日:2022-03-15

    申请号:CN202111633840.8

    申请日:2021-12-29

    申请人: 南通大学

    IPC分类号: G06K9/62 G06Q10/06

    摘要: 本发明属于软件质量保障技术领域,具体涉及一种基于优化随机森林的缺陷报告严重程度预测方法。本发明首先从项目所在的缺陷跟踪系统中,搜集历史缺陷报告并下载,对下载的数据集进行预处理,得到目标缺陷报告数据集;然后使用贝叶斯超参优化方法优化随机森林模型,获得最优的超参数,最后根据最优超参数,构建缺陷报告严重程度预测模型。该发明使用随机森林模型,因其内部集成多个基分类器,具有较强的模型泛化能力;利用贝叶斯超参优化方法可在预设的取值范围内找出最优超参数,进一步增强随机森林模型的泛化能力,提高模型的预测能力。

    一种基于质量过滤器的缺陷报告标题自动生成方法

    公开(公告)号:CN114676298B

    公开(公告)日:2024-04-19

    申请号:CN202210379210.0

    申请日:2022-04-12

    申请人: 南通大学

    摘要: 本发明提供了一种基于质量过滤器的缺陷报告标题自动生成方法,属于软件质量保障技术领域。其技术方案为:首先从GitHub上选择高质量开源项目,再对数据集进行数据预处理,训练自动生成模型,当预测新的缺陷报告时,分别基于通过学习低质量缺陷报告特征进行过滤的深度学习模块和通过判断历史数据集中是否存在与新缺陷报告内容相似的数据实现预测的信息检索模块,来协同预测该缺陷报告能否生成高质量标题,若预测能,则通过自动生成模型生成标题,反之则提出警告。本发明的有益效果为:通过使用正则表达式进行数据预处理,提高了数据处理效率和方法的兼容性;通过双模块协同过滤,提高了自动生成模型生成的标题质量与效率。

    一种基于GraphCodeBERT的安全漏洞检测方法

    公开(公告)号:CN114491540A

    公开(公告)日:2022-05-13

    申请号:CN202210161142.0

    申请日:2022-02-22

    申请人: 南通大学

    IPC分类号: G06F21/56 G06F21/57 G06N3/04

    摘要: 本发明提供了一种基于GraphCodeBERT的安全漏洞检测方法,其技术方案为:首先对源代码进行预处理,得到数据流词元、源代码词元和注释词元,作为安全漏洞检测模型的输入,模型采用编码器‑解码器框架,编码器端使用预训练的GraphCodeBERT,解码器端使用双向长短期记忆(BiLSTM)模型作为分类模型,最终输出一个二分类结果,用来判断代码是否包含安全漏洞。本发明的有益效果为:基于函数粒度,将安全漏洞检测问题建模为二分类问题;与传统的词向量方法不同,通过在编码器端考虑数据流信息,使得模型更容易学到漏洞模式。

    一种基于Transformer的编程问题帖标题自动生成方法

    公开(公告)号:CN114238621B

    公开(公告)日:2024-09-06

    申请号:CN202111441323.0

    申请日:2021-11-30

    申请人: 南通大学

    摘要: 本发明提供了一种基于Transformer的编程问题帖标题自动生成方法,属于计算机应用技术领域;其技术方案为:包括以下步骤:(1)收集开发人员问答网站上与Java、C#、Python和JavaScript四种编程语言相关的问题帖,基于三种启发式规则以过滤掉其中的低质量问题帖;(2)基于上述构建的语料库,对构建的基于Transformer的T5模型进行微调,利用AdaFactor优化器以及注意力机制进行优化,构建出问题帖标题自动生成模型。本发明的有益效果为:为开发人员问答网站(例如Stack Overflow)的问题帖生成既简洁又准确的标题,实现了针对Java、C#、Python和JavaScript四种编程语言的问题帖标题生成的自动化。

    基于辅助翻译软件和双粒度替换的英中翻译软件测试方法

    公开(公告)号:CN115130480A

    公开(公告)日:2022-09-30

    申请号:CN202210405606.8

    申请日:2022-04-18

    申请人: 南通大学

    摘要: 本发明属于机器翻译质量检测技术领域,公开了一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法。针对需要测试的一系列英文源句,首先借助辅助翻译软件,通过计算主英中机器翻译软件和辅助英中机器翻译软件的翻译结果间的余弦相似度,识别出错误候选句子。随后对英文源句进行双粒度替换,以生成替换后的英文源句。并基于成分句法分析和依存句法分析,通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征来进一步识别出错误候选句子。最后通过分析被归为错误候选句子的英文源句,尝试定位并修复英中翻译软件测试方法的实现代码,以提高英中翻译软件的翻译质量。

    一种基于质量过滤器的缺陷报告标题自动生成方法

    公开(公告)号:CN114676298A

    公开(公告)日:2022-06-28

    申请号:CN202210379210.0

    申请日:2022-04-12

    申请人: 南通大学

    摘要: 本发明提供了一种基于质量过滤器的缺陷报告标题自动生成方法,属于软件质量保障技术领域。其技术方案为:首先从GitHub上选择高质量开源项目,再对数据集进行数据预处理,训练自动生成模型,当预测新的缺陷报告时,分别基于通过学习低质量缺陷报告特征进行过滤的深度学习模块和通过判断历史数据集中是否存在与新缺陷报告内容相似的数据实现预测的信息检索模块,来协同预测该缺陷报告能否生成高质量标题,若预测能,则通过自动生成模型生成标题,反之则提出警告。本发明的有益效果为:通过使用正则表达式进行数据预处理,提高了数据处理效率和方法的兼容性;通过双模块协同过滤,提高了自动生成模型生成的标题质量与效率。