中文词语语义相似度的度量方法及装置

发明授权

CN107832288B 中文词语语义相似度的度量方法及装置失效 - 权利终止

请登陆查看更多内容

专利标题： 中文词语语义相似度的度量方法及装置
申请号： CN201710890874.2

申请日： 2017-09-27
公开(公告)号： CN107832288B

公开(公告)日： 2020-06-16
发明人: 李长亮 , 马腾 , 程健
申请人： 中国科学院自动化研究所
申请人地址： 北京市海淀区中关村东路95号
专利权人： 中国科学院自动化研究所
当前专利权人： 中国科学院自动化研究所
当前专利权人地址： 北京市海淀区中关村东路95号
代理机构： 北京市恒有知识产权代理事务所
代理商 郭文浩
主分类号： G06F40/30
IPC分类号： G06F40/30 ; G06F16/33 ; G06F16/35

摘要：

本发明涉及自然语言处理技术领域，具体涉及一种中文词语语义相似度的度量方法及装置，旨在解决中文词语语义相似度度量不准确的问题。为此目的，本发明中的度量方法包括下述步骤：采用K邻近算法计算中文词语所对应初始词向量的K个近邻词向量；采用K‑means算法计算初始词向量及其K个近邻词向量的中心向量；依据初始词向量和中心向量，以及预设的迁移向量模型g，计算中文词语的迁移向量；其中，迁移向量模型g＝α×m+β×p，α和β均为预设参数，m为初始词向量，p为中心向量；依据不同中文词语对应的迁移向量，计算不同中文词语的语义相似度。通过本发明提高了中文词语语义相似性计算的准确率，能够使词向量包含更多词语语义信息，提升了系统容错性。

公开/授权文献

CN107832288A 中文词语语义相似度的度量方法及装置公开/授权日：2018-03-23

信息查询

中国专利公布公告

审查信息

Global Dossier

Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/30	.语义分析