发明授权
- 专利标题: 一种新词的识别方法及装置
-
申请号: CN201710210572.6申请日: 2017-03-31
-
公开(公告)号: CN107180025B公开(公告)日: 2020-05-29
- 发明人: 胡海青 , 苗艳军
- 申请人: 北京奇艺世纪科技有限公司
- 申请人地址: 北京市海淀区北一街2号鸿城拓展大厦10、11层
- 专利权人: 北京奇艺世纪科技有限公司
- 当前专利权人: 北京奇艺世纪科技有限公司
- 当前专利权人地址: 北京市海淀区北一街2号鸿城拓展大厦10、11层
- 代理机构: 北京柏杉松知识产权代理事务所
- 代理商 马敬; 项京
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/216
摘要:
本发明实施例提供了一种新词的识别方法及装置,所述方法包括:获取待处理语料库中当前时间点之前的第一预设时间段内的语料,和待处理语料库中除第一预设时间段内的语料之外的剩余语料;根据N‑gram语言模型获取第一预设时间段内的语料的候选新词,N‑gram语言模型表征组成候选新词的字的个数;计算候选新词在第一预设时间段内的语料中的成词特征,得到候选新词的第一成词程度;计算候选新词在剩余语料中的成词特征,得到候选新词的第二成词程度;根据第一成词程度和第二成词程度,计算候选新词的新颖程度;根据第一成词程度和新颖程度,计算候选新词的衡量度,并对衡量度进行排序,识别候选新词中的新词。应用本发明实施例,有效提高新词识别的准确率。
公开/授权文献
- CN107180025A 一种新词的识别方法及装置 公开/授权日:2017-09-19