一种文本分类方法及装置

发明公开

请登陆查看更多内容

专利标题： 一种文本分类方法及装置
申请号： CN201910151793.X

申请日： 2019-02-28
公开(公告)号： CN109657064A

公开(公告)日： 2019-04-19
发明人: 邓楚然 , 张小陆 , 万婵 , 彭泽武 , 杨秋勇 , 苏华权 , 魏理豪
申请人： 广东电网有限责任公司 , 广东电网有限责任公司信息中心
申请人地址： 广东省广州市越秀区东风东路757号
专利权人： 广东电网有限责任公司,广东电网有限责任公司信息中心
当前专利权人： 广东电网有限责任公司,广东电网有限责任公司信息中心
当前专利权人地址： 广东省广州市越秀区东风东路757号
代理机构： 北京集佳知识产权代理有限公司
代理商 张春水; 唐京桥
主分类号： G06F16/35
IPC分类号： G06F16/35 ; G06F17/27

摘要：

本发明公开了一种文本分类方法，包括：获取训练样本；对所述训练样本进行分词，得到分词列表；根据所述分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；将所述词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；将所述最优λ值作为参数拟合lasso回归模型，并输出特征变量；以特征词的词频文档矩阵创建训练容器；构建所述训练样本的SLDA有监督模型；通过Lasso回归模型得到的特征变量集合，并根据所述特征变量集合更新所述词频文档矩阵；在所述词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。本发明成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类