融合多元文本信息和报告意图的软件缺陷报告分类方法

    公开(公告)号:CN114297393A

    公开(公告)日:2022-04-08

    申请号:CN202210037832.5

    申请日:2022-01-13

    Abstract: 本发明公开了融合多元文本信息和报告意图的软件缺陷报告分类方法,包括:软件缺陷报告提交之后,将以CSV的文件格式存储摘要、项目、组件、报告人、意图这些信息;通过规范化、标记化、去停用词、词干化这些方法对CSV格式的数据进行预处理;使用BERT提取报告摘要的文本信息特征,再利用TF‑IDF方法提取报告的其它特征,包括报告的意图,进而生成特征矩阵;特征矩阵被归一化后形成训练集,训练集被分别输入到五个分类器中,包括K‑NN、NB、LR、SVM和RF用于建立分类模型;从五个分类模型中选出性能最好的一个,实现对缺陷报告的分类。本发明的方法将文本挖掘、自然语言处理和机器学习技术相结合,将报告分为错误与非错误。

Patent Agency Ranking