发明授权
摘要:
本发明提供一种文本分类特征选择方法,能够降低特征维度和分类复杂度、并提高分类准确性。所述方法包括:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序;计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc;计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。本发明适用于机器学习文本分类领域。
公开/授权文献
- CN107016073A 一种文本分类特征选择方法 公开/授权日:2017-08-04