一种基于预训练的稀缺资源神经机器翻译训练方法

    公开(公告)号:CN111178094A

    公开(公告)日:2020-05-19

    申请号:CN201911323619.5

    申请日:2019-12-20

    IPC分类号: G06F40/58 G06N3/04 G06N3/08

    摘要: 本发明公开一种基于预训练的稀缺资源神经机器翻译训练方法,步骤为:构建海量的单语语料,进行分词和子词切分预处理流程,获取收敛后的模型参数;构建平行语料,随机初始化神经机器翻译模型的参数,神经机器翻译模型的词嵌入层和隐藏层的大小和预训练语言模型相同;将预训练模型集成到神经机器翻译模型中;神经机器翻译模型通过平行语料进行训练,使得生成目标语句子和真实的翻译结果更加相似,完成神经机器翻译模型训练过程;将用户输入的源语句子送入到神经机器翻译模型中,神经机器翻译模型通过贪婪搜索或束搜索生成翻译结果。本发明充分利用了单语数据中的知识,相比随机初始化的神经机器翻译模型,可以明显提高翻译性能。

    一种动态调整长度惩罚及译文长度的翻译模型优化方法

    公开(公告)号:CN111178092A

    公开(公告)日:2020-05-19

    申请号:CN201911323594.9

    申请日:2019-12-20

    IPC分类号: G06F40/58 G06N3/04 G06N3/08

    摘要: 本发明公开一种动态调整长度惩罚及译文长度的翻译模型优化方法,步骤为:获取指定语种方向的标准数据作为各种指标预测的标准双语数据集;对标准双语数据集进行分词操作,并进一步训练得到新的训练数据集;对神经机器翻译模型解码器部分进行修改,自动预测出当前句对最优的长度惩罚值;进行长度统计,得到目标语句子长度;准备独立的前馈神经网络模型,使模型最终预测的生成译文更加趋向于最佳长度的译文结果;Transformer神经机器翻译模型针对不同的句子动态的调整其长度惩罚以及最佳译文句子长度。本发明实现了模型翻译过程中长度惩罚以及译文长度的动态调整,实现简单、方法有效,实用性强,模型译文质量提升效果明显。

    一种双语平行数据一致性检测与纠正方法

    公开(公告)号:CN111178089A

    公开(公告)日:2020-05-19

    申请号:CN201911324133.3

    申请日:2019-12-20

    IPC分类号: G06F40/45 G06F40/284

    摘要: 本发明公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。

    一种面向XML文档的可配置神经机器翻译方法

    公开(公告)号:CN111178088A

    公开(公告)日:2020-05-19

    申请号:CN201911324182.7

    申请日:2019-12-20

    摘要: 本发明公开一种面向XML文档的可配置神经机器翻译方法,步骤为:定义标签翻译策略;准备大量的双语对齐语料,使语义单元分布到训练语料中;将构造好的训练数据,预处理后送到神经机器翻译模型中进行训练,训练至收敛时保存模型文件;加载训练好的模型到解码器中;将标签翻译策略写入一个配置文件中;根据配置好的翻译策略,将输入源语经过解码前处理,将不同策略的标签替换成对应的语义单元,再进行分词操作后送入解码器获取翻译结果;解码器返回的翻译结果为含有特定语义单元的结果,将语义单元替换回事先存储的标签,得到完整的标签译文写出到XML文件。本发明方法提取文本翻译模型本身就认识标签的存在,能自主解码出带标签的译文。

    一种提高语料整体质量的数据预处理方法

    公开(公告)号:CN109858029A

    公开(公告)日:2019-06-07

    申请号:CN201910100239.9

    申请日:2019-01-31

    摘要: 本发明公开一种提高语料整体质量的数据预处理方法,步骤为:输入原数据集,原数据集包含源语及目标语,逐行对源语及目标语进行读取;将读取到的单行句对输入到数据过滤模块进行数据过滤;对数据过滤后的数据进行检测,将检测出来的低质量句对直接在原数据集中去除,并将低质量句对输入到日志文件中;对于去除低质量句对后剩余的数据直接对齐进行自动评价操作,得到多个评估分数指标;根据自动评价操作得到的评估分数指标进行过滤,滤除低于规定阈值的存在语义问题的句对;将最终得到的高质量句对存储在输出文件中,得到高质量语料库。本发明能够过滤掉数据集中常见且严重的低质量句子,整个过程均由计算机自动完成,处理速度远远超越了一般水平。

    一种基于拓展搜索空间的结构搜索方法

    公开(公告)号:CN111191785A

    公开(公告)日:2020-05-22

    申请号:CN201911324181.2

    申请日:2019-12-20

    IPC分类号: G06N3/08

    摘要: 本发明涉及一种基于拓展搜索空间的网络结构搜索方法,步骤为:处理训练数据并进行建模并训练;对训练过程中元结构内部以及元结构之间的结构参数数值进行归一化操作;对搜索的子空间结构参数以及模型参数进行优化和调优;得到根据调优后得到的不同操作的权重差异进一步得到离散化的最终结构,该搜索结果中包括元结构内部的操作以及元结构之间的操作;对搜索到的元结构使用元结构之间的连接方式循环展开得到整体的模型,再次进行参数调优,最终训练到收敛为止。本发明在原本仅面向元结构内部结构进行搜索的前提下,将元结构之间的连接也方式也纳入搜索空间中,提升了候选结构空间的大小,相较于普通的面向元结构内部的结构搜索而言取得更好的性能。

    一种基于离散型注意力机制的神经机器翻译解码加速方法

    公开(公告)号:CN111178087A

    公开(公告)日:2020-05-19

    申请号:CN201911323661.7

    申请日:2019-12-20

    摘要: 本发明公开一种基于离散型注意力机制的神经机器翻译解码加速方法,步骤为:构建训练平行语料及基于注意力机制的神经机器翻译的模型,利用平行语料生成机器翻译词表,进一步训练得到训练收敛后的模型参数,作为基线系统;通过对模型参数数值的缩放将网络中注意力机制部分参数转换为整型数值,将浮点数映射到整型数值的整型区间内;无法用整型计算的归一化部分替换为有利于整型计算的线性结构;在线性结构之前通过阈值来控制是否所有数值均参与运算;通过在训练数据中随机抽取的1%~2%的数据上调整所选取的阈值,使其能够达到更好的翻译结果。本发明能够在快速推理的最新实现基础上,且在模型性能几乎没有下降的前提下,提升实时相应速度。

    一种基于上下文记忆网络的篇章级神经机器翻译方法

    公开(公告)号:CN111160050A

    公开(公告)日:2020-05-15

    申请号:CN201911323603.4

    申请日:2019-12-20

    IPC分类号: G06F40/58 G06F40/56

    摘要: 本发明公开一种基于上下文记忆网络的篇章级神经机器翻译方法,其步骤为:构建上下文记忆网络的Transformer模型;构建平行语料库,得到模型的词嵌入输入;在编码器端,结合上下文记忆模块对源语输入进行编码表示,将当前的编码表示更新到上下文记忆模块中;在解码器端,结合源语编码表示对目标语进行处理,得到长度一致的向量表示;将解码器的输出结果经过softmax归一化操作后得到预测的分布,完成模型的训练过程;利用训练好的模型进行篇章级机器翻译,逐句送入模型进行翻译,通过自回归的方式得到翻译结果。本发明通过增加上下文记忆模块用来动态维持上下文记忆信息,引入相关上下文信息,解决翻译结果上下文不一致的问题。

    基于组合的短语规则抽取方法

    公开(公告)号:CN102999486B

    公开(公告)日:2016-12-21

    申请号:CN201210464597.6

    申请日:2012-11-16

    IPC分类号: G06F17/27 G06F17/28

    摘要: 本发明涉及一种基于组合的短语规则抽取方法,包括以下步骤:在双语语料中构造一个“最小短语规则”;通过组合构造组合的短语规则集;从给定的双语平行语料中生成最小短语规则集,并存放在哈希数据结构中;构造组合的短语规则,通过最小短语规则集判断该组合的短语规则由几个最小短语规则组成;如果该组合的短语规则由小于或等于n条最小短语规则集中的最小短语规则组成,将其放入一个新的哈希数据结构中;输出新的最小短语规则集与组合的短语规则集中的短语规则,一次基于组合的短语规则抽取过程结束。本发明有效的生成高质量的含有较多上下文信息的短语规则集,在翻译性能不降低的情况下,本发明方法比基准方法抽取的短语规则集减小56.5%。

    基于句法骨架的统计机器翻译系统

    公开(公告)号:CN105573994A

    公开(公告)日:2016-05-11

    申请号:CN201610053560.2

    申请日:2016-01-26

    IPC分类号: G06F17/28 G06F17/27

    CPC分类号: G06F17/2809 G06F17/271

    摘要: 本发明涉及一种基于句法骨架的统计机器翻译系统,包括以下步骤:1)概率SCFG层次规则抽取方法抽取非句法翻译规则,用于待翻译句子非骨架部分的翻译;2)GHKM规则方法抽取句法翻译规则,用于待翻译句子的骨架部分的翻译;3)非完全句法翻译规则生成:利用句法翻译规则生成非完全句法翻译规则,结合非句法翻译规则和句法翻译规则,实现非句法翻译系统和句法翻译系统两种翻译系统优点的整合;4)模型生成,本发明系统应用句法翻译规则对句法骨架进行翻译以及长距离的调序问,应用非句法翻译系统的规则来处理低层次的词汇翻译和调序。模型易实现,并且效果显著。