一种文本分类方法及装置
摘要:
本发明公开了一种文本分类方法,包括:获取训练样本;对所述训练样本进行分词,得到分词列表;根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;以特征词的词频文档矩阵创建训练容器;构建所述训练样本的SLDA有监督模型;通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。本发明成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。
0/0