基于特征表示的专利文献关键词提取方法、装置及存储介质
摘要:
本发明涉及一种基于特征表示的专利文献关键词提取方法、装置及存储介质。该方法首先获取智慧配电网领域的原始专利文本数据并进行文本预处理,同时提取专利分类号;其次,利用预训练的BERT模型将预处理后的文本向量化,获取各单词的初始向量;再次,构建异构网络并训练图神经网络模型,获取各单词的词嵌入向量,词嵌入向量包括专利的主题信息;接着,构建新的文本图,新的文本图包括滑动窗口连边和嵌入相似连边;最后在新的文本图上利用PageRank算法计算图中各节点的重要性得分,并将得分最高的节点对应的单词或词组作为最终提取的关键词。与现有技术相比,本发明具有保障专利文献关键词提取准确率,提高模型的训练效率等优点。
0/0