一种基于混合多项分布的文本分类算法

发明授权

请登陆查看更多内容

专利标题： 一种基于混合多项分布的文本分类算法
申请号： CN201611254483.3

申请日： 2016-12-30
公开(公告)号： CN108268469B

公开(公告)日： 2021-05-14
发明人: 许飞月 , 陶波 , 陈乐焱
申请人： 广东精点数据科技股份有限公司
申请人地址： 广东省广州市天河北路906高科大厦A-701
专利权人： 广东精点数据科技股份有限公司
当前专利权人： 广东精点数据科技股份有限公司
当前专利权人地址： 广东省广州市天河北路906高科大厦A-701
代理机构： 北京隆源天恒知识产权代理事务所
代理商 闫冬
主分类号： G06F16/35
IPC分类号： G06F16/35 ; G06K9/62

摘要：

本发明提供一种基于混合多项分布的文本分类算法，包括以下步骤：S1：输入训练集文本；S2：计算并保存所有文本类别C的概率分布；S3：初始化混合多项分布的参数值θ、πk以及分量个数K；S4：使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望；S5：用EM算法训练混合多项分布的参数值θ、πk；S6：对不同的所述分量个数K，分别画出模型对测试集和所述训练集的预测误差图线，选择预测误差最小的K值；S7：输出结果。本发明的有益效果在于，本发明将朴素贝叶斯算法结合混合多项分布，用EM算法对混合模型的参数进行估计，以提高模型的分类精度。

公开/授权文献

CN108268469A 一种基于混合多项分布的文本分类算法公开/授权日：2018-07-10

信息查询

中国专利公布公告 Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F16/00	信息检索；数据库结构；文件系统结构
G06F16/30	.•非结构文本数据（文档管理系统入G06F 16/93）
G06F16/35	..••聚类；分类