发明公开
- 专利标题: 一种基于词性标记的领域新词提取方法、系统及设备
-
申请号: CN202310826531.5申请日: 2023-07-07
-
公开(公告)号: CN116562281A公开(公告)日: 2023-08-08
- 发明人: 侯颖 , 崔运鹏 , 罗冠然 , 黄杰 , 王婷 , 王末 , 刘娟
- 申请人: 中国农业科学院农业信息研究所
- 申请人地址: 北京市海淀区中关村南大街12号
- 专利权人: 中国农业科学院农业信息研究所
- 当前专利权人: 中国农业科学院农业信息研究所
- 当前专利权人地址: 北京市海淀区中关村南大街12号
- 代理机构: 北京高沃律师事务所
- 代理商 刘芳
- 主分类号: G06F40/284
- IPC分类号: G06F40/284 ; G06F40/289
摘要:
本发明公开了一种基于词性标记的领域新词提取方法、系统及设备,涉及自然语言处理领域,该方法包括:对待处理文本进行分词处理,得到多个分词;利用词性标注模型对每个所述分词进行标记,得到词性标记;基于所述词性标记,采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语;利用预训练的语言模型,根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序;对排序后的候选短语进行过滤提取领域新词。本发明能够快速准确的提取领域新词。