-
公开(公告)号:CN108376130A
公开(公告)日:2018-08-07
申请号:CN201810196195.X
申请日:2018-03-09
Applicant: 长安大学
Abstract: 本发明公开了一种不良文本信息过滤用特征选择方法,先从类别语料库中提取所有特征项,构建初始特征项集合;然后根据包含特征项tj对不良类别中任一类别Ci的χ2统计量χ2(tj,Ci)、改良后的逆文档频率IDF、逆类别频率ICF和逆不良文档频率IHDF计算得到分类特征权重值CTW值,利用分类特征权重值CTW值作为特征选择的依据,对特征项进行筛选;最后将步骤S2筛选的初始特征项集合中的特征项按照CTW值的大小由高到低排序,选取a个特征项组成最终特征项集合。本发明解决了χ2统计量特征选择方法未考虑到特征项在类内类间分布情况的问题,同时解决了各类别数据集倾斜的问题,进而提高了不良文本信息过滤的效果。