一种基于聚类的垃圾邮件过滤系统及方法
摘要:
本发明公开了一种基于聚类的垃圾邮件过滤系统及方法,系统包括聚类模块、邮件训练模块、特征库存储模块、邮件过滤模块;方法包括:S1.1、从邮件备份系统获取训练邮件及未标记邮件;S1.2、聚类预处理模块对邮件进行预处理;S1.3、聚类分析模块对预处理后的邮件划分成不同的类簇;S1.4、类簇中心计算模块计算各类簇的向量表达;S1.5、训练模块对各类簇中的已标记邮件进行学习,更新对应类簇的特征库;S2.1、从邮件系统获取需要过滤的邮件;S2.2、邮件类属性判别模块计算出与该邮件内容最接近的类簇;S2.3、邮件特征提取模块对待判别邮件进行特征提取;S2.4、邮件判别模块依据邮件特征及对应的特征库给出判别结果。本发明具有提取速度快、准确度高、效果好的优点。
公开/授权文献
0/0