一种结合SVM和半监督聚类的不平衡文本分类方法及系统

    公开(公告)号:CN110309302A

    公开(公告)日:2019-10-08

    申请号:CN201910414208.0

    申请日:2019-05-17

    申请人: 江苏大学

    IPC分类号: G06F16/35 G06K9/62

    摘要: 本发明公开了一种结合SVM和半监督聚类的不平衡文本分类方法及系统,对待处理文本进行预处理,获得向量格式的文本数据作为数据集;使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出。本发明结合了不平衡文本分类的技术领域中不同类型的方法,实现了不同方法的优势互补,使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。有效解决了文本类别不平衡的问题。

    一种结合SVM和半监督聚类的不平衡文本分类方法及系统

    公开(公告)号:CN110309302B

    公开(公告)日:2023-03-24

    申请号:CN201910414208.0

    申请日:2019-05-17

    申请人: 江苏大学

    摘要: 本发明公开了一种结合SVM和半监督聚类的不平衡文本分类方法及系统,对待处理文本进行预处理,获得向量格式的文本数据作为数据集;使用训练集对SVM分类器进行训练得到分类模型,利用分类模型对测试集进行预测,得到测试集的所属类别和置信度;利用半监督聚类算法对数据集进行聚簇,得到测试集的所属类别及其置信度;将SVM分类器和半监督聚类算法的所获得测试集所属类别及其置信度进行融合,得到最终的输出。本发明结合了不平衡文本分类的技术领域中不同类型的方法,实现了不同方法的优势互补,使用向量化和归一化的方法,弥补了在处理高维稀疏的文本数据时,因为有标签文本过少而导致的文本分类结果不精确的缺点。有效解决了文本类别不平衡的问题。

    一种结合半监督聚类的图像场景分类方法及系统

    公开(公告)号:CN111753874A

    公开(公告)日:2020-10-09

    申请号:CN202010410756.9

    申请日:2020-05-15

    申请人: 江苏大学

    摘要: 本发明公开了一种结合半监督聚类的图像场景分类方法及系统,利用有标签样本,重新定义半监督Kmeans的目标函数,同时,补充定义SVM的目标函数,得到半监督Kmeans聚类和基于SVM分类的基学习器;两个基学习器进行协同训练,制定伪标签样本的选择和迭代训练方案;最后依据置信度,将两个学习器的结果进行融合,得到样本所属的场景图像类别。本发明利用图像场景分类领域不同类型的方法构建基分类器并进行协同训练。同时,引入伪标签样本来扩充训练集从而有效解决有标签样本不足的问题。进一步的,本发明在无标签样本上聚类以获得其分布特征,解决了概念漂移问题。最终实现了降低场景图像的标注成本、解决概念漂移并提高了图像场景分类准确率。