发明授权
- 专利标题: 微博分类方法及装置
-
申请号: CN201410591807.7申请日: 2014-10-29
-
公开(公告)号: CN104361037B公开(公告)日: 2017-12-19
- 发明人: 杜翠兰 , 李鹏霄 , 孙旷怡 , 刘晓辉 , 赵淳璐 , 翟羽佳 , 段东圣 , 杨博 , 钮艳
- 申请人: 国家计算机网络与信息安全管理中心
- 申请人地址: 北京市朝阳区裕民路甲3号
- 专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人: 国家计算机网络与信息安全管理中心
- 当前专利权人地址: 北京市朝阳区裕民路甲3号
- 代理机构: 工业和信息化部电子专利中心
- 代理商 秦莹
- 主分类号: G06F17/30
- IPC分类号: G06F17/30 ; G06F17/27
摘要:
本发明公开了一种微博分类方法及装置。该方法包括:步骤1,对训练语料集合进行预处理,对预处理后的训练语料进行分词,获取候选特征,并对候选特征进行权重计算,根据权重计算结果进行特征选择,获取最终的分类特征;步骤2,根据最终的分类特征,采用贝叶斯分类器进行模型训练,获取分类模型;步骤3,采用贝叶斯分类器根据分类模型对微博文档进行分类。借助于本发明的技术方案,提高了分类的召回率与准确率。
公开/授权文献
- CN104361037A 微博分类方法及装置 公开/授权日:2015-02-18