发明授权
- 专利标题: 一种基于混合多项分布的文本分类算法
-
申请号: CN201611254483.3申请日: 2016-12-30
-
公开(公告)号: CN108268469B公开(公告)日: 2021-05-14
- 发明人: 许飞月 , 陶波 , 陈乐焱
- 申请人: 广东精点数据科技股份有限公司
- 申请人地址: 广东省广州市天河北路906高科大厦A-701
- 专利权人: 广东精点数据科技股份有限公司
- 当前专利权人: 广东精点数据科技股份有限公司
- 当前专利权人地址: 广东省广州市天河北路906高科大厦A-701
- 代理机构: 北京隆源天恒知识产权代理事务所
- 代理商 闫冬
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06K9/62
摘要:
本发明提供一种基于混合多项分布的文本分类算法,包括以下步骤:S1:输入训练集文本;S2:计算并保存所有文本类别C的概率分布;S3:初始化混合多项分布的参数值θ、πk以及分量个数K;S4:使用当前参数值θ、πk,计算完整数据的对数似然函数关于隐藏变量后验概率分布的期望;S5:用EM算法训练混合多项分布的参数值θ、πk;S6:对不同的所述分量个数K,分别画出模型对测试集和所述训练集的预测误差图线,选择预测误差最小的K值;S7:输出结果。本发明的有益效果在于,本发明将朴素贝叶斯算法结合混合多项分布,用EM算法对混合模型的参数进行估计,以提高模型的分类精度。
公开/授权文献
- CN108268469A 一种基于混合多项分布的文本分类算法 公开/授权日:2018-07-10