词向量的增量生成方法、装置和电子设备

    公开(公告)号:CN113962220A

    公开(公告)日:2022-01-21

    申请号:CN202111224828.1

    申请日:2021-10-20

    IPC分类号: G06F40/289 G06F40/30

    摘要: 本发明提供了一种用于同一种语言的词向量的增量生成方法、装置和电子设备,包括:获取新词和/或专业词对应的新语料,并采用词向量训练方法对新语料进行训练,得到包含新词和/或专业词的特定词向量;将特定词向量和原有词向量转换到相同的向量空间,得到转换后的特定词向量和转换后的原有词向量;对转换后的特定词向量和转换后的原有词向量进行选择融合,得到增量后的词向量。该方法可有效利用原有词向量,能够在原有词向量的基础上快速扩充得到包含新词和/或专业词的词向量,大大减少了训练的时间与资源消耗,提高了新词、专业词的词向量生成效率。

    无监督可解释分词的方法、装置和电子设备

    公开(公告)号:CN113591475B

    公开(公告)日:2023-07-21

    申请号:CN202110887556.7

    申请日:2021-08-03

    摘要: 本发明提供了一种无监督可解释分词的方法、装置和电子设备,该方法利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题。

    无监督可解释分词的方法、装置和电子设备

    公开(公告)号:CN113591475A

    公开(公告)日:2021-11-02

    申请号:CN202110887556.7

    申请日:2021-08-03

    摘要: 本发明提供了一种无监督可解释分词的方法、装置和电子设备,该方法利用掩码语言模型分类器可以很好地利用大量的未标记数据,无需进行数据的标记,降低了标注成本,由于掩码语言模型分类器为采用专业领域文本训练得到的,所以领域适应性强,此外,通过字级别掩码序列、局部扰动掩码序列、掩码语言模型分类器输出的掩码字符概率对局部可解释模型进行训练,使得局部可解释模型也具备了与掩码语言模型分类器相同的效果,同时,得到了局部可解释模型的可解释性权重,即得到了掩码字符的上下文因果相关度向量,进而得到待分词文本的字符之间的有向因果相关度矩阵,根据该有向因果相关度矩阵对待分词文本进行分词时,可以解决一词多义的技术问题。