融合深度学习和自然语言处理的代码自动化摘要方法

    公开(公告)号:CN108459874B

    公开(公告)日:2021-03-26

    申请号:CN201810177984.9

    申请日:2018-03-05

    IPC分类号: G06F8/73 G06F8/75

    摘要: 本发明公开了一种融合深度学习和自然语言处理的代码自动化摘要方法,流程如下:同时进入S1和S5,S1和S5并行处理;S1、搜集开源社区中的高质量开源项目;S2、抽取开源项目中的API及对应的API注释信息,同时转S3和S4,S3和S4同时并行处理;S3、过滤掉API描述中的无用信息,转S6;S4、对所有的API信息生成关键描述短语,转S6;S5、获取互联网中热门的第三方API;S6、将API及对应的自然语言注释信息作为训练数据,利用抽取的第三方API信息和API对应的关键短语信息,通过深度神经网络训练得到代码自动摘要模型,该模型可以用来为待预测的API代码片段生成自动化摘要信息。本发明能够快速准确地为开源项目中API代码片段生成关联的自然语言描述。

    基于混合效应线性回归模型的项目流行度分析方法

    公开(公告)号:CN108647863A

    公开(公告)日:2018-10-12

    申请号:CN201810377403.6

    申请日:2018-04-25

    IPC分类号: G06Q10/06 G06Q10/10

    CPC分类号: G06Q10/0639 G06Q10/103

    摘要: 针对现有研究分别单独探索缺陷报告和特征报告,对项目流行度的评估具有片面性的问题,本发明提供一种基于混合效应线性回归模型的项目流行度分析方法,通过从GitHub上收集项目数据,然后使用统计分析和回归建模,给出了项目中缺陷报告数量和特征报告数量对项目流行度的影响关系,通过项目中缺陷报告和特征报告对项目流行度影响因子的不同,分析项目流行度的提高与缺陷报告和特征报告的关系;进一步地,通过对缺陷报告和特征报告的描述多样性进行了四个维度的分析,找出缺陷报告和特征报告在描述多样性上的区别。本发明通过分析项目中缺陷报告数量和特征报告数量的差别对比来综合研究项目流行度,可以全面评估项目的流行度。

    融合深度学习和自然语言处理的代码自动化摘要方法

    公开(公告)号:CN108459874A

    公开(公告)日:2018-08-28

    申请号:CN201810177984.9

    申请日:2018-03-05

    IPC分类号: G06F8/73 G06F8/75

    摘要: 本发明公开了一种融合深度学习和自然语言处理的代码自动化摘要方法,流程如下:同时进入S1和S5,S1和S5并行处理;S1、搜集开源社区中的高质量开源项目;S2、抽取开源项目中的API及对应的API注释信息,同时转S3和S4,S3和S4同时并行处理;S3、过滤掉API描述中的无用信息,转S6;S4、对所有的API信息生成关键描述短语,转S6;S5、获取互联网中热门的第三方API;S6、将API及对应的自然语言注释信息作为训练数据,利用抽取的第三方API信息和API对应的关键短语信息,通过深度神经网络训练得到代码自动摘要模型,该模型可以用来为待预测的API代码片段生成自动化摘要信息。本发明能够快速准确地为开源项目中API代码片段生成关联的自然语言描述。

    一种基于软件关联库的跨项目审查者推荐方法

    公开(公告)号:CN108171485A

    公开(公告)日:2018-06-15

    申请号:CN201810100157.X

    申请日:2018-02-01

    IPC分类号: G06Q10/10 G06F9/44

    摘要: 本发明属于软件协同开发领域,公开了一种基于软件关联库的跨项目审查者推荐方法,该方法包括:首先在Stack Overflow社区分析开发者的群体标记行为,利用软件间的应用场景同现性来构建基于场景同现的软件关联库;然后在GitHub社区中抽取项目间的贡献引用指向关系,利用项目间的技术依赖性来构建基于技术依赖的软件关联库;然后从软件关联库中为给定的项目搜索关联项目,并从关联项目中选取活跃贡献者以及核心开发者作为跨项目的贡献审查者。本发明能够推荐关联项目的利益相关者参与到该项目的贡献决策中,从而让审查者更全面地了解来自各个利益相关方的意见,做出更能兼容各方需求的决定。

    一种基于混合相似度的大众贡献合并请求重复性检测方法

    公开(公告)号:CN108182181A

    公开(公告)日:2018-06-19

    申请号:CN201810100193.6

    申请日:2018-02-01

    IPC分类号: G06F17/27 G06F17/22

    摘要: 本发明属于软件协同开发领域,公开了一种基于混合相似度的大众贡献合并请求重复性检测方法。该方法包括:对于新提交的大众贡献合并请求,首先计算它与历史大众贡献合并请求间的文本相似度;然后计算它与历史大众贡献的变更相似度;进一步在大众化协同开发平台上搜集一组历史重复贡献数据集,在此数据集的训练下,利用基于贪心搜索策略的权重计算方法把两种相似度结合起来计算大众贡献间的混合相似度;最后按照混合相似度值的大小得出一组与给定大众贡献合并请求最有可能是重复的历史大众贡献合并请求列表。本发明能够及时探测大众贡献的重复性,避免产生重复的人工代码审查工作,提高大众贡献审查的效率。

    一种基于软件关联库的跨项目审查者推荐方法

    公开(公告)号:CN108171485B

    公开(公告)日:2021-09-24

    申请号:CN201810100157.X

    申请日:2018-02-01

    IPC分类号: G06Q10/10 G06F8/30

    摘要: 本发明属于软件协同开发领域,公开了一种基于软件关联库的跨项目审查者推荐方法,该方法包括:首先在Stack Overflow社区分析开发者的群体标记行为,利用软件间的应用场景同现性来构建基于场景同现的软件关联库;然后在GitHub社区中抽取项目间的贡献引用指向关系,利用项目间的技术依赖性来构建基于技术依赖的软件关联库;然后从软件关联库中为给定的项目搜索关联项目,并从关联项目中选取活跃贡献者以及核心开发者作为跨项目的贡献审查者。本发明能够推荐关联项目的利益相关者参与到该项目的贡献决策中,从而让审查者更全面地了解来自各个利益相关方的意见,做出更能兼容各方需求的决定。

    一种基于混合相似度的大众贡献合并请求重复性检测方法

    公开(公告)号:CN108182181B

    公开(公告)日:2021-03-26

    申请号:CN201810100193.6

    申请日:2018-02-01

    摘要: 本发明属于软件协同开发领域,公开了一种基于混合相似度的大众贡献合并请求重复性检测方法。该方法包括:对于新提交的大众贡献合并请求,首先计算它与历史大众贡献合并请求间的文本相似度;然后计算它与历史大众贡献的变更相似度;进一步在大众化协同开发平台上搜集一组历史重复贡献数据集,在此数据集的训练下,利用基于贪心搜索策略的权重计算方法把两种相似度结合起来计算大众贡献间的混合相似度;最后按照混合相似度值的大小得出一组与给定大众贡献合并请求最有可能是重复的历史大众贡献合并请求列表。本发明能够及时探测大众贡献的重复性,避免产生重复的人工代码审查工作,提高大众贡献审查的效率。

    基于混合效应线性回归模型的项目流行度分析方法

    公开(公告)号:CN108647863B

    公开(公告)日:2020-10-27

    申请号:CN201810377403.6

    申请日:2018-04-25

    IPC分类号: G06Q10/06 G06Q10/10

    摘要: 针对现有研究分别单独探索缺陷报告和特征报告,对项目流行度的评估具有片面性的问题,本发明提供一种基于混合效应线性回归模型的项目流行度分析方法,通过从GitHub上收集项目数据,然后使用统计分析和回归建模,给出了项目中缺陷报告数量和特征报告数量对项目流行度的影响关系,通过项目中缺陷报告和特征报告对项目流行度影响因子的不同,分析项目流行度的提高与缺陷报告和特征报告的关系;进一步地,通过对缺陷报告和特征报告的描述多样性进行了四个维度的分析,找出缺陷报告和特征报告在描述多样性上的区别。本发明通过分析项目中缺陷报告数量和特征报告数量的差别对比来综合研究项目流行度,可以全面评估项目的流行度。