一种融合主题信息的关键词生成方法
摘要:
本发明涉及自然语言处理和关键词提取技术领域,公开了一种融合主题信息的关键词生成方法,对语料库C进行预处理得到向量模型;采用word2vec对Xbow预训练得到词向量Xseq;将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ;将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;将文档‑主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;采用集束搜索,生成关键词的排名列表。与现有技术相比,本发明不仅强调了标题对整个文档的主导作用,还使得生成的词更加契合文档的主题。
公开/授权文献
0/0