-
公开(公告)号:CN109815476B
公开(公告)日:2023-03-24
申请号:CN201811465623.0
申请日:2018-12-03
IPC分类号: G06F40/30 , G06F40/284 , G06N3/0464 , G06N3/08
摘要: 一种基于中文语素和拼音联合统计的词向量表示方法,包括如下步骤:①采集互联网文本信息构建语料库,对构建的语料库进行正文清洗和分词处理;②对中文语料进行分词处理后转为不保留声调信息的拼音信息,然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp;③基于上下文语素和拼音联合统计的中文词表示模型,构造中文单个语素表示向量;④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测。该方法可满足离线词典和语料数据规模的适应性、可直接学习大规模无标注的互联网信息文本数据、可提高常规的词嵌入模型对于中文语言差异特性的兼顾性、可提高对错别字词语的表示和识别准确性。
-
公开(公告)号:CN109815476A
公开(公告)日:2019-05-28
申请号:CN201811465623.0
申请日:2018-12-03
摘要: 一种基于中文语素和拼音联合统计的词向量表示方法,包括如下步骤:①采集互联网文本信息构建语料库,对构建的语料库进行正文清洗和分词处理;②对中文语料进行分词处理后转为不保留声调信息的拼音信息,然后分别对语素和拼音特征在训练集语料和全文档中统计词频和逆文档概率作统计权重TFc、IDFc、TFp和IDFp;③基于上下文语素和拼音联合统计的中文词表示模型,构造中文单个语素表示向量;④在步骤③的基础上训练一个三层神经网络以用于中心目标词的预测。该方法可满足离线词典和语料数据规模的适应性、可直接学习大规模无标注的互联网信息文本数据、可提高常规的词嵌入模型对于中文语言差异特性的兼顾性、可提高对错别字词语的表示和识别准确性。
-