一种信息过滤系统
    1.
    发明授权

    公开(公告)号:CN101908055B

    公开(公告)日:2013-02-13

    申请号:CN201010118656.5

    申请日:2010-03-05

    IPC分类号: G06F17/30

    摘要: 一种信息过滤系统,涉及到一种信息过滤技术。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题,本发明的优化lam%的信息分类阈值的设定方法为:设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。本发明的信息过滤系统中包括用于存储垃圾信息和正常信息的特征及其权重信息的特征权重库;用于根据用户的反馈信息调整/更新特征权重库中的特征及其权重的训练器;用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息的过滤器。

    一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统

    公开(公告)号:CN101908055A

    公开(公告)日:2010-12-08

    申请号:CN201010118656.5

    申请日:2010-03-05

    IPC分类号: G06F17/30

    摘要: 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统,涉及到一种信息过滤方法及该方法中的阈值设定方法。它解决了现有信息过滤模型中存在的优化目标和过滤问题评价指标不一致、模型优化结果产生偏差、性能受到制约的问题。所述优化lam%的信息分类阈值的设定方法是设定偏置的分类阈值,使hm%或sm%趋近于0,进而使得lam%的值趋近于0。所述信息过滤系统包括特征权重库、训练器、信息过滤器,其中,信息过滤器用于对接收信息进行特征提取并获得特征信息的信息、以及基于特征权重库中的特征对于接收到信息进行识别,将所述信息分为正常信息和垃圾信息。本发明可应用于网络信息过滤和手机垃圾短信过滤等电子信息的过滤。

    基于字节级n元文法的特征提取方法及垃圾邮件过滤器

    公开(公告)号:CN101540017A

    公开(公告)日:2009-09-23

    申请号:CN200910071908.0

    申请日:2009-04-28

    IPC分类号: G06Q10/00 G06N1/00 H04L12/58

    摘要: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。

    基于字节级n元文法的特征提取方法及垃圾邮件过滤器

    公开(公告)号:CN101540017B

    公开(公告)日:2016-08-03

    申请号:CN200910071908.0

    申请日:2009-04-28

    IPC分类号: H04L12/58

    摘要: 基于字节级n元文法的特征提取方法及垃圾邮件过滤器,涉及到包括垃圾邮件过滤技术在内的信息处理技术领域。它解决了现有文本特征提取方法中存在的需要词库支持,并不能够同时适应对英文、汉字、图形以及其它形式信息的特征提取、鉴别的问题,本发明的特征提取方法所提取的特征信息为m个长度为n个字节的信息片段序列。本发明的垃圾邮件过滤器中的分类器采用上述方法提取邮件的特征信息作为判断依据,并采用逻辑回归模型这一判别学习模型从理论上保证能够取得良好的过滤性能;本发明的垃圾邮件过滤器中的训练器采用在线学习方式,采用TONE(Train On or Near Error)方法调整特征权重。本发明的垃圾邮件过滤器尤其适用于中文垃圾邮件的过滤。