发明授权
- 专利标题: 文本中新词发现的方法和装置
-
申请号: CN201510443291.6申请日: 2015-07-24
-
公开(公告)号: CN105095196B公开(公告)日: 2017-11-14
- 发明人: 邵佳帅 , 牟川 , 邢志峰
- 申请人: 北京京东尚科信息技术有限公司 , 北京京东世纪贸易有限公司
- 申请人地址: 北京市海淀区杏石口路65号西杉创意园四区11C楼东段1-4层西段1-4层
- 专利权人: 北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司
- 当前专利权人: 北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司
- 当前专利权人地址: 北京市海淀区杏石口路65号西杉创意园四区11C楼东段1-4层西段1-4层
- 代理机构: 中原信达知识产权代理有限责任公司
- 代理商 姜劲; 陆锦华
- 主分类号: G06F17/28
- IPC分类号: G06F17/28
摘要:
本发明提供一种文本中新词发现的方法和装置,能够自动发现文本中字的特征,并通过挖掘字的特征向量的相似度从文本中发现出新词,节省了现有技术中观察数据特征的时间,提高新词发现的效率。该方法包括:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。
公开/授权文献
- CN105095196A 文本中新词发现的方法和装置 公开/授权日:2015-11-25