文本中新词发现的方法和装置
摘要:
本发明提供一种文本中新词发现的方法和装置,能够自动发现文本中字的特征,并通过挖掘字的特征向量的相似度从文本中发现出新词,节省了现有技术中观察数据特征的时间,提高新词发现的效率。该方法包括:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
公开/授权文献
0/0