基于核采样与极大距离排序的代码摘要生成方法及设备

    公开(公告)号:CN116466956A

    公开(公告)日:2023-07-21

    申请号:CN202310471152.9

    申请日:2023-04-27

    申请人: 武汉大学

    发明人: 刘进 张丰基 余啸

    IPC分类号: G06F8/41

    摘要: 本发明提供一种基于核采样与极大距离排序的代码摘要生成方法及设备。该方法包括:获取语言模型生成第i个单词时对应的第一单词概率分布表;基于第一单词概率分布表中的前K个单词的概率得到第二单词概率分布表;根据预设温度以及第二单词概率分布表中每个单词的概率得到第三单词概率分布表;从第三单词概率分布表中随机选取一个单词作为第i个单词;以此类推,得到代码摘要;再以此类推,得到多个代码摘要;从多个代码摘要中选取预设数量的代码摘要进行输出。通过本发明,提高了模型生成代码摘要的准确性,解决了现有技术中很难保证模型生成用户所需要的代码摘要的问题。

    一种基于三点定位法的推送信息采信检测方法

    公开(公告)号:CN107203592B

    公开(公告)日:2019-11-22

    申请号:CN201710277470.6

    申请日:2017-04-25

    申请人: 武汉大学

    IPC分类号: G06F16/9537 H04W4/02 H04W4/12

    摘要: 本发明涉及一种基于三点定位法的推送信息采信检测方法,利用主观消息中的位置信息这个客观因素作为评价参考,无添加新的评价标准,有效降低检验过程的复杂度,应用三点定位法,通过智能手机中的电子地图的定位功能辅助,依据几何扫描算法给出了一个重要的距离计算算法,初步判定信息提供者所在区域范围,并将其与信息发生区域进行比对,粗粒度地检验出可靠的时效信息。

    一种基于生成式对抗网络的自动摘要的生成方法及装置

    公开(公告)号:CN109614480A

    公开(公告)日:2019-04-12

    申请号:CN201811417886.4

    申请日:2018-11-26

    申请人: 武汉大学

    摘要: 本发明提供了一种基于生成式对抗网络的自动摘要的生成方法及装置,其中的方法首先从问答社区上获取问题数据,并用脚本对数据进行清洗,划分训练集和测试集,建立词典并利用词典生成训练集句向量;再用生成式对抗网络模型对训练集中的句向量进行训练以得到合适的模型参数;最后利用训练得到的模型对测试集进行相似问题答案的自动摘要生成。实现了无监督的学习方式获取数据集以及提高自动摘要的生成效果的技术效果。

    一种基于Spark平台的并行序列模式挖掘方法

    公开(公告)号:CN107145548A

    公开(公告)日:2017-09-08

    申请号:CN201710284017.8

    申请日:2017-04-26

    申请人: 武汉大学

    IPC分类号: G06F17/30

    摘要: 本发明公开了一种基于Spark平台的并行序列模式挖掘方法,针对现有的串行化序列模式挖掘算法在处理海量数据时计算能力低效的问题和现有的基于Hadoop的并行序列模式挖掘算法具有高IO开销和负载不平衡的问题,设计了合理的序列数据库分解策略,最大限度的解决了负载不平衡的问题。在此基础上根据MapReduce编程框架的特性,对原始GSP算法进行了并行化,利用Spark云计算平台的大规模并行计算能力提高了海量数据序列模式挖掘效率。

    一种基于大小模型融合的自我承认技术债检测方法与装置

    公开(公告)号:CN117873558A

    公开(公告)日:2024-04-12

    申请号:CN202311821695.5

    申请日:2023-12-27

    申请人: 武汉大学

    发明人: 刘进 李俊 余啸

    摘要: 本发明公开了一种基于大小模型融合的自我承认技术债检测方法与装置,涉及软件工程技术领域,包括以下步骤:基于思维链的少样本学习提示模板,为数据集的代码注释构建用于技术债检测的有效提示;将所述有效提示输入至ChatGPT,生成分析过程与第一预测结果;通过预训练的词向量模型,为所述数据集的代码注释生成对应的向量表示;将数据集代码注释的向量表示的分别输入到CNN、LSTM、Transformer模型中进行训练,并得到三个模型在数据集上的预测结果;根据所述三个模型的预测结果得到全数投票结果,根据所述全数投票结果与第一预测结果,确定最终预测结果。本发明提供的方法可以更高效和准确的检测自我承认的技术债务。

    一种基于特征选择和集成学习的软件缺陷个数预测方法

    公开(公告)号:CN107247666B

    公开(公告)日:2020-03-10

    申请号:CN201710375644.2

    申请日:2017-05-24

    申请人: 武汉大学

    IPC分类号: G06F11/36

    摘要: 本发明属于软件缺陷预测技术领域,特别是涉及一种基于特征选择和集成学习的软件缺陷个数预测方法,针对软件缺陷个数的预测中不相关的模块特征损害了缺陷预测模型性能,回归模型均具有不同的预测能力,无法选择最佳回归算法等问题,首先利用基于包裹式的特征选择方法过滤不相关和冗余的特征,然后采用六种不同的回归算法:线性回归、岭回归、决策树回归、梯度boosting回归、最近邻回归和多层感知器回归,采用集成学习技术,根据特征筛选后的数据实例,构建综合回归模型。相比于单个的回归模型,本发明提高了软件缺陷个数预测的准确性。

    一种基于长短期记忆网络的代码推荐方法

    公开(公告)号:CN107506414B

    公开(公告)日:2020-01-07

    申请号:CN201710687197.4

    申请日:2017-08-11

    申请人: 武汉大学

    IPC分类号: G06F16/9535 G06F16/9536

    摘要: 本发明涉及一种基于长短期记忆网络的代码推荐方法,针对现有代码推荐技术普遍存在推荐准确率低、推荐效率低等问题,本发明先将源代码提取成API序列,利用长短期记忆网络构建一个代码推荐模型,学习API调用之间的关系,然后进行代码推荐。并使用了dropout技术防止模型过拟合。同时提出运用ReLu函数代替传统饱和函数,解决梯度消失问题加快模型收敛速度,提高模型性能,充分发挥神经网络的优势。本发明的技术方案具有简单、快速的特点,能够较好地提高代码推荐的准确率和推荐效率。

    一种基于Spark云计算平台的并行序列模式挖掘方法

    公开(公告)号:CN107346331B

    公开(公告)日:2019-08-20

    申请号:CN201710482965.2

    申请日:2017-06-22

    申请人: 武汉大学

    IPC分类号: G06F16/20 G06F16/23

    摘要: 本发明公开了一种基于Spark云计算平台的并行序列模式挖掘方法,针对现有的串行化序列模式挖掘算法在处理海量数据时计算能力低效的问题和现有的基于Hadoop的并行序列模式挖掘算法具有高IO开销和负载不平衡的问题,设计了合理的投影序列数据库切分策略,最大限度的解决了负载不平衡的问题。在此基础上根据MapReduce编程框架的特性,对原始PrefixSpan算法进行了并行化,利用Spark云计算平台的大规模并行计算能力提高了海量数据序列模式挖掘效率。本发明的技术方案具有简单、快速的特点,能够较好地提高序列模式挖掘的效率。

    一种基于长短期记忆网络的代码推荐方法

    公开(公告)号:CN107506414A

    公开(公告)日:2017-12-22

    申请号:CN201710687197.4

    申请日:2017-08-11

    申请人: 武汉大学

    IPC分类号: G06F17/30

    摘要: 本发明涉及一种基于长短期记忆网络的代码推荐方法,针对现有代码推荐技术普遍存在推荐准确率低、推荐效率低等问题,本发明先将源代码提取成API序列,利用长短期记忆网络构建一个代码推荐模型,学习API调用之间的关系,然后进行代码推荐。并使用了dropout技术防止模型过拟合。同时提出运用ReLu函数代替传统饱和函数,解决梯度消失问题加快模型收敛速度,提高模型性能,充分发挥神经网络的优势。本发明的技术方案具有简单、快速的特点,能够较好地提高代码推荐的准确率和推荐效率。

    一种基于数据欠采样和集成学习的软件缺陷数目预测方法

    公开(公告)号:CN107391452A

    公开(公告)日:2017-11-24

    申请号:CN201710548391.4

    申请日:2017-07-06

    申请人: 武汉大学

    IPC分类号: G06F17/18

    摘要: 本发明针对软件缺陷数据集中数据极度不平衡会降低软件缺陷数目预测模型的性能的问题,提出了一种基于数据欠采样和集成学习的软件缺陷数目预测方法。本发明设计了合理的不平衡数据处理策略,首先利用随机欠采样技术通过删除缺陷数据集中缺陷数目为零的软件模块得到相对平衡的新数据集,然后利用相对平衡的缺陷数据集训练出若干个弱的软件缺陷数目预测模型,最后集成这些弱的软件缺陷数目预测模型来预测待预测的软件模块的缺陷数目。本发明的技术方案既能够解决缺陷数据集中数据不平衡的问题,又能够结合多个弱的预测模型来提高软件缺陷数目预测模型的性能。