一种基于KNN的文本分类方法
摘要:
本发明公开了一种基于KNN的文本分类方法,适用于核安全级软件验证和可靠性验证。本发明的文本分类方法包括训练过程处理和测试过程处理,将训练样本数据集以原始文本自身和文本中所有的标题两部分的信息来表示。依据文本由浅到深的特征层次结构构建两个DBM模型,提取低维高区分度的深层特征并存储,在测试过程中以适当的权重考虑文本标题给相似度的计算带来的贡献来确定待测试文本的类别。本发明充分利用文本标题的信息,比将浅层特征向量作为训练集在分类性能上有显著改善,同时能够降低存储需求和在线计算量,解决了特征向量高维灾难问题,提高了分类的准确度,可以用于安全级软件可靠性评价分析中的规则匹配和失效模式库的建立。
公开/授权文献
0/0