一种词元粒度下基于加强Transformer的代码补全方法

    公开(公告)号:CN116661797A

    公开(公告)日:2023-08-29

    申请号:CN202310543114.X

    申请日:2023-05-15

    Applicant: 南通大学

    Abstract: 本发明属于代码补全技术领域,具体涉及一种词元粒度下基于加强Transformer的代码补全方法。本发明包括以下步骤:S1:收集Java代码段,构建代码语料库,将Java源代码展平转换为词元序列形式;S2:对数据使用BPE分词算法,利用子词来编码数据,获得模型所需要的词向量;S3:在模型框架方面,使用TransformerEncoder编码待学习词向量信息,通过TransformerDecoder解码获得待补全结果;S4:使用Talking‑HeadsAttention改进传统Transformer模型使用的Multi‑HeadAttention;S5:在推理解码阶段,使用波束搜索方法生成top5个推荐的补全代码,避免在代码补全阶段推荐列表中出现重复词元。本发明可以更好地利用源代码语义信息进行词元粒度代码补全,该方法能有效提高代码补全的准确性。

    一种基于抽象语法树代码表征的代码补全方法

    公开(公告)号:CN116700780A

    公开(公告)日:2023-09-05

    申请号:CN202310778652.7

    申请日:2023-06-29

    Applicant: 南通大学

    Abstract: 本发明提供一种基于抽象语法树代码表征的代码补全方法,包括:S1、收集Github上开源的代码补全数据集DeepCom,选取Java源代码部分并剔除其对应注释,构建代码语料库;S2、将Java源代码转换为其对应的AST抽象语法树,使用切分遍历算法遍历Java代码的AST,获取切分遍历后的序列;S3、利用预训练GPT‑2模型对代码补全任务进行微调操作,并使用BPE算法对输入的文本序列进行分词;S4、在微调过程中使用FGM算法进行对抗训练,为模型在训练过程中添加扰动,增强模型鲁棒性;S5、在推理解码阶段,模型输入代补全代码,逐个词元生成补全代码序列,直到代码补全完整或出现停止符。本发明可以更好地利用源代码丰富的语法结构和语义信息进行完整代码补全,有效提高代码补全的准确性。

    一种基于优化实例选择的跨项目软件缺陷预测方法

    公开(公告)号:CN115269377A

    公开(公告)日:2022-11-01

    申请号:CN202210717428.2

    申请日:2022-06-23

    Applicant: 南通大学

    Abstract: 本发明提供一种基于优化实例选择的跨项目软件缺陷预测方法,包括如下步骤:S1、构建项目向量集PVS;S2、构建目标实例优化索引IPI;S3、构建预训练集TPRED;S4、构建目标项目的优化索引TPOI;S5、构建基于优化实例选择的训练集BOD;S6、构建基于优化实例选择的跨项目软件缺陷预测方法BOICP。本发明提出一种基于优化实例选择的跨项目软件缺陷预测方法,通过构建目标实例全局特征向量实现源实例选择,然后使用相关性分析进一步优化实例选择,使用该方法构建的训练集有利于选择可靠的实例数据,实现更好的跨项目缺陷预测效果。

    一种基于区块链的艺术品确权流通方法

    公开(公告)号:CN114677129A

    公开(公告)日:2022-06-28

    申请号:CN202210401092.9

    申请日:2022-04-18

    Applicant: 南通大学

    Abstract: 本发明提供一种基于区块链的艺术品确权流通方法,包括如下步骤:S1、基于ubantu系统,使用go‑ethereum对区块链进行创世区块的初始化和私人网络搭建;S2、基于remix ide平台,使用solidity语言对艺术品上链交易编写智能合约;S3、对智能合约的性能和安全进行测试,用户上链确权,并进行交易流通,成功确权。本发明针对艺术品的数字确权流通,提供一种基于区块链的艺术品确权流通方法,通过上链确权,交易流通达到艺术品确权流通的目的。

    一种基于渐进采样的层级式图像分类方法

    公开(公告)号:CN116797835A

    公开(公告)日:2023-09-22

    申请号:CN202310758952.9

    申请日:2023-06-26

    Applicant: 南通大学

    Abstract: 本发明属于计算机视觉技术领域,具体涉及一种基于渐进采样的层级式图像分类方法。包括以下步骤:S1:将图片送入第一个阶段的分层模块中,利用特征金字塔的结构将图片的分辨率由低到高依次输出不同的特征图,分别作为阶段1,阶段2,阶段3,阶段4的特征图;S2:将各层的特征图分别送入到对应阶段中的渐进采样模块中,对判别位置进行定位;S3:将采样步长的嵌入馈送到Transformer编码层,预测下一组采样偏移,更新下一组的采样位置;S4:重复进行S2和S3,从最后一次迭代中得到最后的输出令牌;S5:将不同层的特征图分别通过分类器单元将最终的输出向量转化成概率表示,完成各层的图像分类;S6:利用最大值法,结合最后的分类结果,得出最后的图像分类。

    基于多重源码表示和循环神经网络的代码注释生成方法

    公开(公告)号:CN114816516A

    公开(公告)日:2022-07-29

    申请号:CN202210452163.8

    申请日:2022-04-27

    Applicant: 南通大学

    Abstract: 本发明提供一种基于多重源码表示和循环神经网络的代码注释生成方法,包括如下步骤:S1、收集Java代码注释对,构建语料库;S2、在序列化处理层,将语料库中的源代码转换为token序列、SBT序列和API序列;S3、在编码器层,使用双向GRU作为编码器,为3个序列分别构建codeseq编码器、SBTseq编码器和APIseq编码器,学习源代码不同级别的信息;S4、在解码器层,使用单向GRU构建解码器,并利用teacher forcing策略训练模型;S5、在3个编码器中的每个编码器后添加注意力层,将三个编码器输入和解码器输入的注意力矩阵链接起来并用一个全连接层学习如何组合每个输入的代码,最终输出代码注释。本发明提高代码注释生成的准确性,提高软件开发人员在软件开发过程中的效率,节省开发时间。

    一种基于联合嵌入模型的代码推荐方法

    公开(公告)号:CN112860879A

    公开(公告)日:2021-05-28

    申请号:CN202110251408.6

    申请日:2021-03-08

    Applicant: 南通大学

    Abstract: 本发明提供一种基于联合嵌入模型的代码推荐方法,包括:S1、从GitHub帖子的评论中提取对问题的补充性问题;S2、将 用来训练sequence‑to‑sequence模型,并保存为问题提升模型;S3、从GitHub上收集带有注释的Java开源项目数据集,并对其预处理;S4、建立联合嵌入模型,进行向量化处理;S5、从GitHub中收集至少有20个stars的Java开源项目来构建代码库,将所有的代码段嵌入到向量中;S6、将查询问题输入到问题提升模型中,将得到的结果输入到联合嵌入模型中进行向量化;S7、计算查询问题的向量和代码向量的相似度得分来推荐Top‑k代码段。本发明解决了自然语言查询中反映的高级意图与源代码中低级实现细节之间不匹配的问题,以及深度学习方法中缺乏不可扩展性的问题。

    一种基于提示学习和双信息源融合的API推荐方法

    公开(公告)号:CN117034135B

    公开(公告)日:2025-05-27

    申请号:CN202310778665.4

    申请日:2023-06-29

    Applicant: 南通大学

    Abstract: 本发明提供一种基于提示学习和双信息源融合的API推荐方法,包括如下步骤:S1、从SO问答网站StackOverflow中筛选出与API相关的问题,捕获对话文本中的单词;S2、从API参考文档中提取相关信息;S3、通过两类API知识的融合,构建基于启发式方法的API与问答QA的关系;S4、将融合的知识表示训练BERT变体模型RoBERTa;S5、输入查询语句得到一组候选API;S6、利用提示学习计算概率对候选API进行重排序。本发明利用双信息源融合,来提高API检索的效率,API参考文档和SO问答网站相互补充,可共同为API查询与检索提供支持。本发明在训练模型阶段,不同于以往对模型的微调,将查询语句作为提示符,提供了足够的上下文信息使RoBERTa模型适应API推荐任务,提高了API推荐的准确性。

    一种基于半监督学习的数字化信息归并分类算法

    公开(公告)号:CN116756654A

    公开(公告)日:2023-09-15

    申请号:CN202310822787.9

    申请日:2023-07-06

    Applicant: 南通大学

    Abstract: 本发明提供一种基于半监督学习的数字化信息归并分类算法,检测原始数字化信息中的概念漂移数据,滤除噪声数据,降低对后续分类结果精度的影响;利用半监督学习训练K均值聚类算法,利用训练后算法训练数据块,构建基础分类器,通过对目标函数求解获得最优聚类中心;构建基于SDClass算法的归并分类器,计算每个数据块类标签的估计值,以及估计值与簇中心间距离,找出最近的簇,将对应的数据块划分到该簇中,实现数字化信息的归并分类。选取6种不同类型的数据集对所提方法展开实验测试,结果表明,所提方法针对不同类型的数据集均可实现高精准分类,且具有较高的分类效率。

Patent Agency Ranking