基于关键句的多语言情感数据处理分类方法及系统

    公开(公告)号:CN103995853A

    公开(公告)日:2014-08-20

    申请号:CN201410198519.5

    申请日:2014-05-12

    CPC classification number: G06F17/30705

    Abstract: 本发明公开了一种基于关键句的多语言情感数据处理分类方法及系统,方法包括:步骤1,从未标注的情感数据集中自动抽取一部情感词典数据包,通过K近邻算法和投票规则来最终判定情感词的极性;步骤2,用抽取出的情感词典数据包计算情感属性的得分,然后再综合考虑位置属性和关键词属性,自动为每一篇文本抽取若干句情感关键句;步骤3,把抽取出的情感关键句直接应用于有监督情感数据分类和无监督情感数据分类中。由此解决多语言翻译时语言迁移和情感数据分析的双重难点问题,以提高情感数据分析的准确性。

    多种语言文本数据分类处理方法

    公开(公告)号:CN103488623A

    公开(公告)日:2014-01-01

    申请号:CN201310397617.7

    申请日:2013-09-04

    Abstract: 本发明公开了一种自学习的涉及多语言数据处理分类方法,包括通过第一种子词中文或者外文“很”抽取候选情感词,然后进行停用词过滤,停用词表从语料库中自动获取;步骤2,通过第二种子词“好”和第三种子词“差”或者外文“好”“差”对情感词和情感文本同时进行支持或反对聚类;通过半监督学习构建情感分类器,先从聚类的结果中挑选确信的样本训练初始分类器,然后融合文本的情感得分和分类器的后验概率来挑选新样本加入训练集。本发明提出的面向多语言倾向性分析的方法是语言无关的,无需借助机器翻译系统和大规模双语词典,直接在目标语言上学习情感分类器,具有最小资源依赖性,对于每种目标语言,仅仅需要三个种子词而不需要其他先验知识。

    一种报文信息源抽取方法及其系统

    公开(公告)号:CN103778200B

    公开(公告)日:2017-08-08

    申请号:CN201410010836.X

    申请日:2014-01-09

    Abstract: 本发明公开了一种报文信息源抽取方法及其系统,该方法通过匹配信息源抽取规则库的关键词提取报文中的信息源,并匹配信息源抽取规则库的规则判断信息源类型,该方法包括:报文解析步骤和信息源抽取步骤,报文解析步骤用于根据输入的文本,提取文本中的字符,并对字符进行断句处理为不同分句,信息源抽取步骤为根据信息源抽取规则库对分句进行关键词匹配,对分句抽取有用要素序列,并在有用要素序列上,提取信息源,并通过匹配信息源抽取规则库的规则判断信息源类型。

Patent Agency Ranking