发明授权
- 专利标题: 一种网络社区话题分类方法及装置
-
申请号: CN201811062800.0申请日: 2018-09-12
-
公开(公告)号: CN109446393B公开(公告)日: 2020-06-30
- 发明人: 吴旭 , 党习歌 , 颉夏青
- 申请人: 北京邮电大学
- 申请人地址: 北京市海淀区西土城路10号
- 专利权人: 北京邮电大学
- 当前专利权人: 北京邮电大学
- 当前专利权人地址: 北京市海淀区西土城路10号
- 代理机构: 北京辰权知识产权代理有限公司
- 代理商 刘广达
- 主分类号: G06F16/951
- IPC分类号: G06F16/951 ; G06F16/332 ; G06F16/35 ; G06F40/284 ; G06Q50/00
摘要:
本发明公开了一种网络社区话题分类方法及装置,属于数据处理技术领域。所述方法包括:收集网络社区话题语料并确定对应的类别标记,对收集的话题语料进行预处理后作为样本集;根据类别标记和朴素贝叶斯算法构造样本集错分的代价敏感矩阵;基于代价敏感矩阵对样本集进行训练得到分类器;使用分类器对网络社区文本进行分类。本发明中,通过构造代价敏感矩阵,并在分类器的训练过程中,将代价敏感引入随机森林,为各类别加入错分代价,且以错分代价最小为目的进行分类器训练,从而在保证了分类器性能的前提下,有效的解决了由于数据不均衡带来的分类准确率低的问题,进而为网络社区话题的分析和监管提供了有利基础。
公开/授权文献
- CN109446393A 一种网络社区话题分类方法及装置 公开/授权日:2019-03-08