发明公开
- 专利标题: 一种基于术语频率和卡方统计的文本分类特征选择方法
- 专利标题(英): Text classification feature selecting method based on term frequency and chi-square statistics
-
申请号: CN201410629761.3申请日: 2014-11-10
-
公开(公告)号: CN104346459A公开(公告)日: 2015-02-11
- 发明人: 马廷淮 , 金传鑫 , 侯荣涛 , 田伟 , 薛羽
- 申请人: 南京信息工程大学
- 申请人地址: 江苏省南京市宁六路219号
- 专利权人: 南京信息工程大学
- 当前专利权人: 北京凤凰学易科技有限公司
- 当前专利权人地址: 江苏省南京市宁六路219号
- 代理机构: 南京众联专利代理有限公司
- 代理商 顾进; 叶涓涓
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明提供一种基于术语频率和卡方统计的文本分类特征选择方法,包括如下步骤:对数据集预处理;把每一个数据对象转换为特征空间的向量;分别计算每个术语在每个文本分类中的最大术语频率和平均术语频率;根据平均术语频率计算术语在每个类中的分布差异度;将每个术语的最大术语频率和分布差异度与传统的卡方统计公式相结合,计算每个术语在每个类中的权重,并取最大值为术语权重;将每个术语权重降序排序,选出权重值最大的前N个术语作为特征。本发明通过对传统的卡方统计进行改进,使在某类出现频率较高的或类内分布均匀的特征项对类别区分的贡献度得到体现,并修正了传统卡方统计方法偏向于低频词的不足。
公开/授权文献
- CN104346459B 一种基于术语频率和卡方统计的文本分类特征选择方法 公开/授权日:2017-10-27