发明公开
CN109657064A 一种文本分类方法及装置
无效 - 驳回
- 专利标题: 一种文本分类方法及装置
-
申请号: CN201910151793.X申请日: 2019-02-28
-
公开(公告)号: CN109657064A公开(公告)日: 2019-04-19
- 发明人: 邓楚然 , 张小陆 , 万婵 , 彭泽武 , 杨秋勇 , 苏华权 , 魏理豪
- 申请人: 广东电网有限责任公司 , 广东电网有限责任公司信息中心
- 申请人地址: 广东省广州市越秀区东风东路757号
- 专利权人: 广东电网有限责任公司,广东电网有限责任公司信息中心
- 当前专利权人: 广东电网有限责任公司,广东电网有限责任公司信息中心
- 当前专利权人地址: 广东省广州市越秀区东风东路757号
- 代理机构: 北京集佳知识产权代理有限公司
- 代理商 张春水; 唐京桥
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06F17/27
摘要:
本发明公开了一种文本分类方法,包括:获取训练样本;对所述训练样本进行分词,得到分词列表;根据所述分词列表确定词频文档矩阵,并计算分词列表中各词语的TF-IDF值矩阵;将所述词语作为变量输入模型,根据CV图获取最佳λ值和最优变量个数范围;将所述最优λ值作为参数拟合lasso回归模型,并输出特征变量;以特征词的词频文档矩阵创建训练容器;构建所述训练样本的SLDA有监督模型;通过Lasso回归模型得到的特征变量集合,并根据所述特征变量集合更新所述词频文档矩阵;在所述词频文档矩阵上应用训练好的SLDA模型,输出预测结果和预测概率。本发明成本低且效率高,可推广性强,可以剔除人的主观因素对结果的影响。