- 专利标题: 一种基于TF-IDF特征提取的短文本分类方法
-
申请号: CN201610894174.6申请日: 2016-10-13
-
公开(公告)号: CN106528642B公开(公告)日: 2018-05-25
- 发明人: 纪晓阳 , 孔祥明 , 林成创 , 蔡斯凯 , 蔡禹 , 贾义动
- 申请人: 广东广业开元科技有限公司
- 申请人地址: 广东省广州市珠江新城金穗路1号邦华环球广场408
- 专利权人: 广东广业开元科技有限公司
- 当前专利权人: 广东广业开元科技有限公司
- 当前专利权人地址: 广东省广州市珠江新城金穗路1号邦华环球广场408
- 代理机构: 广州嘉权专利商标事务所有限公司
- 代理商 胡辉
- 主分类号: G06F17/30
- IPC分类号: G06F17/30
摘要:
本发明公开了一种基于TF‑IDF特征提取的短文本分类方法,该方法通过将短文本合并成长文本增强短文本的TF‑IDF特征,并降维生成特征词列表和特征词字典;同时在建立特征词列表时对特征相对不明显的类别建立补偿机制,并增强文本特征向量权重,不需要预先构建或训练其他词库或词向量词典,从而能在保证文本特征表达效果的前提下大幅提升算法性能。本发明作为一种基于TF‑IDF特征提取的短文本分类方法可广泛应用于数据处理领域。
公开/授权文献
- CN106528642A 一种基于TF-IDF特征提取的短文本分类方法 公开/授权日:2017-03-22