发明公开
- 专利标题: 词嵌入表示学习方法及装置、文本召回方法及装置
-
申请号: CN202010961808.1申请日: 2020-09-14
-
公开(公告)号: CN112100332A公开(公告)日: 2020-12-18
- 发明人: 张雨春 , 翁泽峰 , 翟彬旭 , 张东于 , 范云霓
- 申请人: 腾讯科技(深圳)有限公司
- 申请人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人: 腾讯科技(深圳)有限公司
- 当前专利权人地址: 广东省深圳市南山区高新区科技中一路腾讯大厦35层
- 代理机构: 深圳市隆天联鼎知识产权代理有限公司
- 代理商 叶虹
- 主分类号: G06F16/33
- IPC分类号: G06F16/33 ; G06F40/289
摘要:
本公开提供了一种词嵌入表示学习方法及装置、文本召回方法及装置,涉及人工智能领域。词嵌入表示学习方法包括:获取文本语料,对所述文本语料进行分词处理,并基于得到的分词和所述分词对应的发音信息构建图结构;以所述图结构中的各节点为初始节点,随机游走获取与所述初始节点对应的节点序列;根据所述节点序列对词嵌入表示模型进行训练以获取词嵌入查找表,并基于所述词嵌入查找表确定与所述文本语料对应的词嵌入表示。本公开能够根据分词和发音信息构建图,并基于图结构训练词嵌入,使得词形学接近的词语在词嵌入空间中具有相近的距离,避免了输入错误导致的召回文本错误的问题,提高了召回效率和召回质量,进而提升了用户体验。