一种基于文本挖掘的金融类逾期短信智能判别方法
摘要:
本发明公开了一种基于文本挖掘的金融类逾期短信智能判别方法,属于文本数据挖掘领域。本发明方法主要包括:获取短信文本进行分词,计算短信文本的相似度,提取短信模板;对短信模板抽样标注是否为金融逾期短信;对所有短信模板进行分词,挖掘新词和领域词组,形成新词库;用新词库对短信模板重新分词,提取对逾期判别具有重要价值的分词,组成特征向量空间;将标注的短信模板作为训练数据,采用支持向量机算法训练金融逾期分类器模型,训练好后输入所有短信,进行逾期分类判别。采用本发明方法,可以快速地从大量短信文本中提取金融逾期类相关的短信,从而为个人征信业务提供重要参考价值。
0/0