一种新词的识别方法及装置
摘要:
本发明实施例提供了一种新词的识别方法及装置,所述方法包括:获取待处理语料库中当前时间点之前的第一预设时间段内的语料,和待处理语料库中除第一预设时间段内的语料之外的剩余语料;根据N‑gram语言模型获取第一预设时间段内的语料的候选新词,N‑gram语言模型表征组成候选新词的字的个数;计算候选新词在第一预设时间段内的语料中的成词特征,得到候选新词的第一成词程度;计算候选新词在剩余语料中的成词特征,得到候选新词的第二成词程度;根据第一成词程度和第二成词程度,计算候选新词的新颖程度;根据第一成词程度和新颖程度,计算候选新词的衡量度,并对衡量度进行排序,识别候选新词中的新词。应用本发明实施例,有效提高新词识别的准确率。
公开/授权文献
0/0