- 专利标题: 基于中文词向量模型的文本识别方法、装置及存储介质
-
申请号: CN202010396412.7申请日: 2020-05-12
-
公开(公告)号: CN111563379A公开(公告)日: 2020-08-21
- 发明人: 赵建强 , 蒋卓 , 何星 , 张辉极 , 黄剑 , 杜新胜 , 陈诚 , 邓叶勋 , 李小亮
- 申请人: 厦门市美亚柏科信息股份有限公司
- 申请人地址: 福建省厦门市思明区软件园二期观日路12号102-402单元
- 专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人: 厦门市美亚柏科信息股份有限公司
- 当前专利权人地址: 福建省厦门市思明区软件园二期观日路12号102-402单元
- 代理机构: 厦门福贝知识产权代理事务所
- 代理商 陈远洋
- 主分类号: G06F40/289
- IPC分类号: G06F40/289 ; G06F40/242 ; G06F40/30 ; G06F16/35
摘要:
本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
公开/授权文献
- CN111563379B 基于中文词向量模型的文本识别方法、装置及存储介质 公开/授权日:2022-12-02