发明公开
- 专利标题: 一种基于深度学习的上位词挖掘方法及系统
-
申请号: CN202310371998.5申请日: 2023-04-10
-
公开(公告)号: CN118780281A公开(公告)日: 2024-10-15
- 发明人: 罗冠然 , 崔运鹏 , 王末 , 李欢 , 王婷
- 申请人: 中国农业科学院农业信息研究所
- 申请人地址: 北京市海淀区中关村南大街12号
- 专利权人: 中国农业科学院农业信息研究所
- 当前专利权人: 中国农业科学院农业信息研究所
- 当前专利权人地址: 北京市海淀区中关村南大街12号
- 代理机构: 北京律诚同业知识产权代理有限公司
- 代理商 祁建国; 陈思远
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/30 ; G06F40/211 ; G06N3/088 ; G06N3/09
摘要:
本发明提出一种基于深度学习的上位词挖掘方法和系统,包括:获取目标文本和目标文本语言上位词的句法规则,提取目标文本中词语,通过挖掘其共下位词,将词语进行扩展,将词语及其扩展结果作为查询词,通过句法规则在语料库中检索查询词的上位词并进行打分排序,选择分数最高的上位词作为无监督挖掘结果;根据查询词和语料库中候选上位词的嵌入向量,度量查询词和候选上位词是上下位关系的可能性,选择可能性最大的候选上位词嵌入向量对应的候选上位词作为有监督挖掘结果;通过归一化并求和对有监督挖掘结果和无监督挖掘结果进行重打分,选择重打分结果排名最高的有监督挖掘结果和/或无监督挖掘结果作为最终的目标文本的上位词挖掘结果。