一种基于文本混乱度的软件问题报告分类方法

    公开(公告)号:CN107273295B

    公开(公告)日:2020-03-20

    申请号:CN201710484890.1

    申请日:2017-06-23

    IPC分类号: G06F11/36 G06K9/62 G06N20/00

    摘要: 本发明公开了一种基于本文混乱度的软件问题报告分类方法,该方法包括以下步骤:1)对GitHub平台进行数据采集,所采集的数据包括大众提交的问题报告以及该报告的相关信息;2)数据集标注,通过对问题报告的标签进行人工的抽样分析,从中选取出能够表示问题报告类型的标签,从而通过这些标签实现对数据集的标注;3)对数据集进行预处理,包括对文本信息进行预处理,去除不需要的信息,并通过文本信息数字化,将文本信息转化为可以进行计算处理的数字形式;4)模型构建,利用已有的机器学习方法,构建一个两层的自动化问题报告分类器。本发明提出的方法能够提升问题报告分类的自动化水平,降低人工成本,提高大众贡献汇聚效率。