-
公开(公告)号:CN118780281A
公开(公告)日:2024-10-15
申请号:CN202310371998.5
申请日:2023-04-10
申请人: 中国农业科学院农业信息研究所
IPC分类号: G06F40/289 , G06F40/30 , G06F40/211 , G06N3/088 , G06N3/09
摘要: 本发明提出一种基于深度学习的上位词挖掘方法和系统,包括:获取目标文本和目标文本语言上位词的句法规则,提取目标文本中词语,通过挖掘其共下位词,将词语进行扩展,将词语及其扩展结果作为查询词,通过句法规则在语料库中检索查询词的上位词并进行打分排序,选择分数最高的上位词作为无监督挖掘结果;根据查询词和语料库中候选上位词的嵌入向量,度量查询词和候选上位词是上下位关系的可能性,选择可能性最大的候选上位词嵌入向量对应的候选上位词作为有监督挖掘结果;通过归一化并求和对有监督挖掘结果和无监督挖掘结果进行重打分,选择重打分结果排名最高的有监督挖掘结果和/或无监督挖掘结果作为最终的目标文本的上位词挖掘结果。
-
公开(公告)号:CN116562281A
公开(公告)日:2023-08-08
申请号:CN202310826531.5
申请日:2023-07-07
申请人: 中国农业科学院农业信息研究所
IPC分类号: G06F40/284 , G06F40/289
摘要: 本发明公开了一种基于词性标记的领域新词提取方法、系统及设备,涉及自然语言处理领域,该方法包括:对待处理文本进行分词处理,得到多个分词;利用词性标注模型对每个所述分词进行标记,得到词性标记;基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;利用预训练的语言模型,根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序;对排序后的候选短语进行过滤提取领域新词。本发明能够快速准确的提取领域新词。
-