发明授权
- 专利标题: 一种基于KNN的文本分类方法
-
申请号: CN201610288920.7申请日: 2016-05-04
-
公开(公告)号: CN105975573B公开(公告)日: 2019-08-13
- 发明人: 冯素梅 , 赵云飞 , 张亚栋 , 江国进 , 白涛 , 王晓燕 , 宁祾 , 程建明
- 申请人: 北京广利核系统工程有限公司 , 中国广核集团有限公司
- 申请人地址: 北京市海淀区永丰路5号院5号楼101
- 专利权人: 北京广利核系统工程有限公司,中国广核集团有限公司
- 当前专利权人: 北京广利核系统工程有限公司,中国广核集团有限公司
- 当前专利权人地址: 北京市海淀区永丰路5号院5号楼101
- 主分类号: G06F16/35
- IPC分类号: G06F16/35
摘要:
本发明公开了一种基于KNN的文本分类方法,适用于核安全级软件验证和可靠性验证。本发明的文本分类方法包括训练过程处理和测试过程处理,将训练样本数据集以原始文本自身和文本中所有的标题两部分的信息来表示。依据文本由浅到深的特征层次结构构建两个DBM模型,提取低维高区分度的深层特征并存储,在测试过程中以适当的权重考虑文本标题给相似度的计算带来的贡献来确定待测试文本的类别。本发明充分利用文本标题的信息,比将浅层特征向量作为训练集在分类性能上有显著改善,同时能够降低存储需求和在线计算量,解决了特征向量高维灾难问题,提高了分类的准确度,可以用于安全级软件可靠性评价分析中的规则匹配和失效模式库的建立。
公开/授权文献
- CN105975573A 一种基于KNN的文本分类方法 公开/授权日:2016-09-28