发明公开
- 专利标题: 基于特征表示的专利文献关键词提取方法、装置及存储介质
-
申请号: CN202410776898.5申请日: 2024-06-17
-
公开(公告)号: CN118797062A公开(公告)日: 2024-10-18
- 发明人: 肖浥青 , 宋平 , 罗裬 , 华斌 , 齐晓曼 , 张鹏飞 , 陆启宇 , 刘哲 , 陈甜甜 , 范莹 , 刘婧 , 陈予欣 , 赵林萱 , 李永 , 安静
- 申请人: 国网上海市电力公司 , 上海久隆企业管理咨询有限公司
- 申请人地址: 上海市浦东新区自由贸易试验区源深路1122号;
- 专利权人: 国网上海市电力公司,上海久隆企业管理咨询有限公司
- 当前专利权人: 国网上海市电力公司,上海久隆企业管理咨询有限公司
- 当前专利权人地址: 上海市浦东新区自由贸易试验区源深路1122号;
- 代理机构: 上海科盛知识产权代理有限公司
- 代理商 叶敏华
- 主分类号: G06F16/35
- IPC分类号: G06F16/35 ; G06N3/042 ; G06N3/0455 ; G06F40/284 ; G06N3/0464
摘要:
本发明涉及一种基于特征表示的专利文献关键词提取方法、装置及存储介质。该方法首先获取智慧配电网领域的原始专利文本数据并进行文本预处理,同时提取专利分类号;其次,利用预训练的BERT模型将预处理后的文本向量化,获取各单词的初始向量;再次,构建异构网络并训练图神经网络模型,获取各单词的词嵌入向量,词嵌入向量包括专利的主题信息;接着,构建新的文本图,新的文本图包括滑动窗口连边和嵌入相似连边;最后在新的文本图上利用PageRank算法计算图中各节点的重要性得分,并将得分最高的节点对应的单词或词组作为最终提取的关键词。与现有技术相比,本发明具有保障专利文献关键词提取准确率,提高模型的训练效率等优点。