用于对文本集进行分类的方法、系统及存储介质

    公开(公告)号:CN108846120A

    公开(公告)日:2018-11-20

    申请号:CN201810676963.1

    申请日:2018-06-27

    IPC分类号: G06F17/30 G06K9/62

    摘要: 本发明提供一种用于对文本集进行分类的方法、系统及存储介质,属于文本分类算法技术领域。方法包括:读取需要被分类的文本集并对所述文本集进行预处理;确定所述文本集的困惑度;在所述困惑度取最小值的情况下,确定所述文本集的主题数;根据所述主题数采用BTM模型生成所述文本集的主题向量;采用Doc2vec模型根据所述文本集生成特征向量;合并所述主题向量和所述特征向量以生成所述文本集的特征空间向量;将所述特征空间向量作为SVM分类器的原始输入空间向量输入SVM分类器以进行分类。用于对文本集进行分类的方法、系统及存储介质,该方法、系统及存储介质可以提高文本分类算法的效率。