基于数据选择网络的多领域自适应神经机器翻译方法

    公开(公告)号:CN115048947A

    公开(公告)日:2022-09-13

    申请号:CN202210668398.0

    申请日:2022-06-14

    IPC分类号: G06F40/58 G06N3/04 G06N3/08

    摘要: 本发明提供基于数据选择网络的多领域自适应神经机器翻译方法。现有方法通常混合多个领域数据在单个模型上实现多领域翻译,但通常忽略通用领域和特定领域二者训练数据极不平衡现象导致的模型翻译性能下降问题。在此本发明先在基于Transformer的架构下添加一个数据选择网络,同时在利用双层优化技术的基础上通过最小化风险训练来同步更新数据选择网络和模型参数。本发明对通用领域数据和多个特定领域数据做到了有效平衡,解决了对于多个特定领域数据混合会造成模型翻译性能下降的问题。实验结果表明:在多领域神经机器翻译中,本发明从英语到德语和汉语到英语的BLEU值相比基线模型,分别平均提高了1.55和1.09。

    基于双向依存自注意力机制的低资源神经机器翻译方法

    公开(公告)号:CN113901845A

    公开(公告)日:2022-01-07

    申请号:CN202111078629.4

    申请日:2021-09-15

    摘要: 本发明涉及基于双向依存自注意力机制的低资源神经机器翻译方法,属于自然语言处理技术领域。本发明首先从互联网上获取平行语料,并对获取的数据进行清洗,之后对源语言进行分词及依存解析,再将处理好的平行数据和依存标记数据作为输入,输入到具有双向依存自注意力机制的Transformer模型中,最终得到翻译结果。本发明提出的基于双向依存自注意力机制的低资源神经机器翻译方法,在汉语‑泰语、汉语‑英语和英语‑德语上的双向翻译上取得了很好的效果。

    一种基于英语枢轴的弱监督汉越双语词典构建方法

    公开(公告)号:CN111310480B

    公开(公告)日:2021-12-28

    申请号:CN202010062905.7

    申请日:2020-01-20

    摘要: 本发明涉及一种基于英语枢轴的弱监督汉越双语词典构建方法,属于自然语言处理技术领域。本发明包括步骤:分别收集汉语、英语和越南语的单语语料以及对语料进行预处理;基于种子词典的方法将汉越词向量分别对齐到英语词向量共享空间;在英语词向量共享空间中通过对抗网络学习汉越词向量之间的映射关系;采用不同的抽取策略抽取汉‑越词典。本发明对自动构建汉‑越词典的准确率有很大提升。解决现有汉越双语词典构建方法中存在的平行语料、种子词典等非常稀缺且难以标注以及现有方法构建效果不佳的问题。

    一种基于孪生循环神经网络的泰文句子切分方法

    公开(公告)号:CN111126037B

    公开(公告)日:2021-10-29

    申请号:CN201911309244.7

    申请日:2019-12-18

    摘要: 本发明公开了一种基于孪生循环神经网络的泰文句子切分方法,属于句子切分领域。本发明方法不需要人工设计特征,也不依赖词性标注和句法信息。与已有方法相比,本发明所提出的方法更加简洁,句子切分效果也有了提升;本发明方法对空格前后的词序列进行编码获取句子切分的特征时,空格前和空格后的词序列使用相同的模型框架,并且共享了相同的参数,这样更好的考虑了空格前后词序列之间的可比性,同时缩减了参数,更有利于模型的训练;通过词嵌入和循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义,从而提升句子切分的性能。

    基于重读和反馈机制的神经机器翻译方法

    公开(公告)号:CN110472727B

    公开(公告)日:2021-05-11

    申请号:CN201910676598.9

    申请日:2019-07-25

    摘要: 本发明涉及基于重读和反馈机制的神经机器翻译方法,属于自然语言处理技术领域。首先,第一层编码器的最终状态在传递给第一层解码器进行解码的同时,生成其副本并传递给第二层编码器,第二层编码器重新读取该状态用于参数初始化,该过程称为“重读”。其次,将第一层解码器的解码结果和源语言共同作为重要性计算方法的输入,产生的重要性权重反馈到第二层编码器用于指导编码,该过程称为“反馈”。本发明能够实现端到端神经网络结构的改变,改变后的网络结构能够更好的挖掘全局信息,适用于平行语料稀缺型翻译环境。

    融合单语语言模型的汉越伪平行语料生成方法

    公开(公告)号:CN111709254A

    公开(公告)日:2020-09-25

    申请号:CN202010368001.7

    申请日:2020-04-30

    摘要: 本发明涉及融合单语语言模型的汉越伪平行语料生成方法,属于自然语言处理技术领域。本发明考虑到单语数据的可利用性,在回译方法的基础上,将利用大量单语数据训练的语言模型与神经机器翻译模型进行融合,在回译过程中通过语言模型融入语言特性,以此生成更规范质量更优的伪平行语料,并将生成的语料添加到原始小规模语料中训练最终翻译模型。本发明通过将语言模型和神经机器翻译模型融合,能够产生质量更优的伪平行语料,进而更好地提升汉越神经机器翻译系统的性能和效果。

    基于深度可分离卷积的汉越神经机器翻译方法

    公开(公告)号:CN111144142A

    公开(公告)日:2020-05-12

    申请号:CN201911391334.5

    申请日:2019-12-30

    IPC分类号: G06F40/58 G06F40/289 G06N3/04

    摘要: 本发明涉及一种基于深度可分离卷积的汉越神经机器翻译方法,属于资源稀缺型语言神经机器翻译技术领域。本发明首先根据越南语的语言特点,将越南语切分为词、音节、字符、子词四种不同的翻译粒度序列。其次利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,本发明通过在神经机器翻译模型编码器嵌入层之前增加深度可分离卷积神经网络的方法,在资源稀缺型语言机器翻译领域构建了基于深度可分离卷积的汉越神经机器翻译方法,有效的缓解了资源稀缺型语言神经机器翻译数据稀疏的问题,提升了翻译性能。

    一种基于不对等语料的跨语言词嵌入方法

    公开(公告)号:CN110297903A

    公开(公告)日:2019-10-01

    申请号:CN201910499213.6

    申请日:2019-06-11

    IPC分类号: G06F16/35 G06K9/62

    摘要: 本发明涉及一种基于不对等语料的跨语言词嵌入方法,属于自然语言处理技术领域。本发明首先对单语词向量进行归一化,对小字典词对(训练集跨语言词对)正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。

    融入分类词典的汉越神经机器翻译集外词处理方法

    公开(公告)号:CN110457715B

    公开(公告)日:2022-12-13

    申请号:CN201910634905.7

    申请日:2019-07-15

    摘要: 本发明涉及融入分类词典的汉越神经机器翻译集外词处理方法,属于自然语言处理技术领域。本发明对集外词进行了分类,并且发现不同类别的集外词可以采用不同的方法处理,然后有针对性的构建出分类词典,其中双语词典用以解决词表外稀有词的翻译问题,实体词典用以解决实体词翻译不准确的问题,规则词典用以解决数字、符号、时间和日期等词的翻译问题,然后在模型的前处理阶段通过查询分类词典进行集外词识别后,在模型的编码端对集外词进行标签替换,经过模型翻译后得到带有标签的翻译结果,再通过查询分类词典对标签进行翻译恢复。本发明通过将分类词典融入神经机器翻译,能更加准确的对集外词进行翻译,从而提升神经机器翻译系统的性能和效果。