一种基于词性标记的领域新词提取方法、系统及设备
摘要:
本发明公开了一种基于词性标记的领域新词提取方法、系统及设备,涉及自然语言处理领域,该方法包括:对待处理文本进行分词处理,得到多个分词;利用词性标注模型对每个所述分词进行标记,得到词性标记;基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;利用预训练的语言模型,根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序;对排序后的候选短语进行过滤提取领域新词。本发明能够快速准确的提取领域新词。
0/0