基于CRP聚类的词语多原型向量表示及词义消歧方法

    公开(公告)号:CN109033307B

    公开(公告)日:2021-08-31

    申请号:CN201810783010.5

    申请日:2018-07-17

    摘要: 本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法,包括步骤一:对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中目标多义词语按照聚类簇类别标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤二:对目标短文本预处理获得短文本词语序列,识别词语序列中目标多义词语,计算目标多义词语上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间相似度,将相似度最大值聚类簇类别所对应词向量表示作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。本发明解决了词语表示中一词多义表示问题及词义表示中歧义识别问题。

    基于CRP聚类的词语多原型向量表示及词义消歧方法

    公开(公告)号:CN109033307A

    公开(公告)日:2018-12-18

    申请号:CN201810783010.5

    申请日:2018-07-17

    IPC分类号: G06F17/30 G06F17/27 G06K9/62

    摘要: 本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法,包括步骤一:对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中目标多义词语按照聚类簇类别标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤二:对目标短文本预处理获得短文本词语序列,识别词语序列中目标多义词语,计算目标多义词语上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间相似度,将相似度最大值聚类簇类别所对应词向量表示作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。本发明解决了词语表示中一词多义表示问题及词义表示中歧义识别问题。