-
公开(公告)号:CN103995853A
公开(公告)日:2014-08-20
申请号:CN201410198519.5
申请日:2014-05-12
Applicant: 中国科学院计算技术研究所
IPC: G06F17/30
CPC classification number: G06F17/30705
Abstract: 本发明公开了一种基于关键句的多语言情感数据处理分类方法及系统,方法包括:步骤1,从未标注的情感数据集中自动抽取一部情感词典数据包,通过K近邻算法和投票规则来最终判定情感词的极性;步骤2,用抽取出的情感词典数据包计算情感属性的得分,然后再综合考虑位置属性和关键词属性,自动为每一篇文本抽取若干句情感关键句;步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数据分类中。由此解决多语言翻译时语言迁移和情感数据分析的双重难点问题,以提高情感数据分析的准确性。
-
公开(公告)号:CN103488623A
公开(公告)日:2014-01-01
申请号:CN201310397617.7
申请日:2013-09-04
Applicant: 中国科学院计算技术研究所
IPC: G06F17/27
Abstract: 本发明公开了一种自学习的涉及多语言数据处理分类方法,包括通过第一种子词中文或者外文“很”抽取候选情感词,然后进行停用词过滤,停用词表从语料库中自动获取;步骤2,通过第二种子词“好”和第三种子词“差”或者外文“好”“差”对情感词和情感文本同时进行支持或反对聚类;通过半监督学习构建情感分类器,先从聚类的结果中挑选确信的样本训练初始分类器,然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。本发明提出的面向多语言倾向性分析的方法是语言无关的,无需借助机器翻译系统和大规模双语词典,直接在目标语言上学习情感分类器,具有最小资源依赖性,对于每种目标语言,仅仅需要三个种子词而不需要其他先验知识。
-