一种针对海量相似短文本的聚类方法和系统

    公开(公告)号:CN102184256A

    公开(公告)日:2011-09-14

    申请号:CN201110147340.3

    申请日:2011-06-02

    发明人: 白俊良 陈光

    IPC分类号: G06F17/30

    摘要: 一种针对海量相似短文本的聚类方法和系统是属于信息技术科学领域内的一项针对重复短文本检测的研究。因为短文本有着它自身的特点,所以传统的重复文本分析方法应用到短文本上的计算结果无法令人满意。而本发明采用基于短文本内容主干的重复分析方法,并结合相关词群,除能检测出完全重复的文本外,还可以检测出相似性极高的文本,而且处理速度快,效率高,可以较好的处理海量数据。采用本发明的方法可以去除冗余短文本,能够大大降低系统处理规模,并且还可以在一定程度上发现热点短文本,辅助发现社会热点。