一种结合SVM和半监督聚类的不平衡文本分类方法及系统

    公开(公告)号:CN110309302A

    公开(公告)日:2019-10-08

    申请号:CN201910414208.0

    申请日:2019-05-17

    申请人: 江苏大学

    IPC分类号: G06F16/35 G06K9/62

    摘要: 本发明公开了一种结合SVM和半监督聚类的不平衡文本分类方法及系统,对待处理文本进行预处理,获得向量格式的文本数据作为数据集;使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出。本发明结合了不平衡文本分类的技术领域中不同类型的方法,实现了不同方法的优势互补,使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。有效解决了文本类别不平衡的问题。

    一种结合SVM和半监督聚类的不平衡文本分类方法及系统

    公开(公告)号:CN110309302B

    公开(公告)日:2023-03-24

    申请号:CN201910414208.0

    申请日:2019-05-17

    申请人: 江苏大学

    摘要: 本发明公开了一种结合SVM和半监督聚类的不平衡文本分类方法及系统,对待处理文本进行预处理,获得向量格式的文本数据作为数据集;使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出。本发明结合了不平衡文本分类的技术领域中不同类型的方法,实现了不同方法的优势互补,使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。有效解决了文本类别不平衡的问题。