-
公开(公告)号:CN115480821A
公开(公告)日:2022-12-16
申请号:CN202211129739.3
申请日:2022-09-16
申请人: 南通大学
摘要: 本发明提供了一种基于主动学习的代码注释生成方法,属于计算机技术领域,解决了在有限的人工标注预算下,导致模型训练数据不足,难以生成高质量代码注释的问题其技术方案为:包括以下步骤:(1)搜集域内数据集;(2)预训练通用模型;(3)设计基于聚类和注意力分散的主动学习采样策略;(4)在数据采样、标记和模型微调这两个步骤中不断迭代,直到预算用完或达到预定义的终止条件;(5)在有限的人工标注预算下微调后的模型会为代码段生成更高质量的代码注释。本发明的有益效果为:基于主动学习训练的模型可以在有限的标注预算下使用较少的训练数据为代码片段生成更高质量的注释,从而平衡地达到一定注释质量所需的人力。
-
公开(公告)号:CN114238621A
公开(公告)日:2022-03-25
申请号:CN202111441323.0
申请日:2021-11-30
申请人: 南通大学
IPC分类号: G06F16/34 , G06F16/36 , G06F40/258 , G06F8/30
摘要: 本发明提供了一种基于Transformer的编程问题帖标题自动生成方法,属于计算机应用技术领域;其技术方案为:包括以下步骤:(1)收集开发人员问答网站上与Java、C#、Python和JavaScript四种编程语言相关的问题帖,基于三种启发式规则以过滤掉其中的低质量问题帖;(2)基于上述构建的语料库,对构建的基于Transformer的T5模型进行微调,利用AdaFactor优化器以及注意力机制进行优化,构建出问题帖标题自动生成模型。本发明的有益效果为:为开发人员问答网站(例如Stack Overflow)的问题帖生成既简洁又准确的标题,实现了针对Java、C#、Python和JavaScript四种编程语言的问题帖标题生成的自动化。
-
公开(公告)号:CN114238621B
公开(公告)日:2024-09-06
申请号:CN202111441323.0
申请日:2021-11-30
申请人: 南通大学
IPC分类号: G06F16/34 , G06F16/36 , G06F40/258 , G06F8/30
摘要: 本发明提供了一种基于Transformer的编程问题帖标题自动生成方法,属于计算机应用技术领域;其技术方案为:包括以下步骤:(1)收集开发人员问答网站上与Java、C#、Python和JavaScript四种编程语言相关的问题帖,基于三种启发式规则以过滤掉其中的低质量问题帖;(2)基于上述构建的语料库,对构建的基于Transformer的T5模型进行微调,利用AdaFactor优化器以及注意力机制进行优化,构建出问题帖标题自动生成模型。本发明的有益效果为:为开发人员问答网站(例如Stack Overflow)的问题帖生成既简洁又准确的标题,实现了针对Java、C#、Python和JavaScript四种编程语言的问题帖标题生成的自动化。
-
公开(公告)号:CN114418033B
公开(公告)日:2024-05-24
申请号:CN202210170049.6
申请日:2022-02-24
申请人: 南通大学
IPC分类号: G06F18/2415 , G06F18/2431 , G06F18/214 , G06F40/211 , G06F40/284 , G06F40/30 , G06F16/35 , G06N3/08 , G06N3/0442 , G06N3/045
摘要: 本发明提供了一种基于CodeBert的代码编程语言分类方法,属于计算机应用技术领域。其技术方案为:包括以下步骤:(1)对原始数据集进行处理,去除其中的噪音,并使用BPE方法进行分词;(2)从CodeBert的每一层中提取表征信息作为表征信息序列,使用双向循环神经网络(Bi‑LSTM)和注意力机制关注可提供重要表征信息的层;(3)基于语料库对构建的模型进行训练,得到代码编程语言分类模型。本发明的有益效果为:该方法能快速识别源代码所属的编程语言类型,降低手工分类源代码编程语言的成本。
-
公开(公告)号:CN114418033A
公开(公告)日:2022-04-29
申请号:CN202210170049.6
申请日:2022-02-24
申请人: 南通大学
IPC分类号: G06K9/62 , G06F40/289 , G06F16/35 , G06F8/41 , G06N3/08
摘要: 本发明提供了一种基于CodeBert的代码编程语言分类方法,属于计算机应用技术领域。其技术方案为:包括以下步骤:(1)对原始数据集进行处理,去除其中的噪音,并使用BPE方法进行分词;(2)从CodeBert的每一层中提取表征信息作为表征信息序列,使用双向循环神经网络(Bi‑LSTM)和注意力机制关注可提供重要表征信息的层;(3)基于语料库对构建的模型进行训练,得到代码编程语言分类模型。本发明的有益效果为:该方法能快速识别源代码所属的编程语言类型,降低手工分类源代码编程语言的成本。
-
-
-
-