一种基于互补语料的短文本观点挖掘方法

    公开(公告)号:CN106227768B

    公开(公告)日:2019-09-03

    申请号:CN201610559782.1

    申请日:2016-07-15

    IPC分类号: G06F16/9536 G06F17/27

    摘要: 本发明公开了一种基于互补语料的短文本观点挖掘方法,是基于属性的观点挖掘;具体为:首先,从某段微博语料中选取训练语料,进行分词处理,词性标注和筛选;根据观点词将训练语料进行属性词的标注;并使用词性标注做为特征训练最大熵模型;然后,针对某个事件的微博语料和新闻语料,构建跨语料的话题模型,并结合最大熵模型,分析该事件所属的话题并提取相应的属性词分布和观点词分布;最后,针对某个具体共享话题的所有观点词或者某个具体独享话题中的所有观点词,利用情感分类器进行极性分析。本发明适用于对舆情事件的属性分析及观点挖掘,具有高效性、鲁棒性和易用性的特点,在观点挖掘、舆情监控等领域具有重要的应用价值。