基于数据选择网络的多领域自适应神经机器翻译方法

    公开(公告)号:CN115048947B

    公开(公告)日:2024-08-09

    申请号:CN202210668398.0

    申请日:2022-06-14

    摘要: 本发明提供基于数据选择网络的多领域自适应神经机器翻译方法。现有方法通常混合多个领域数据在单个模型上实现多领域翻译,但通常忽略通用领域和特定领域二者训练数据极不平衡现象导致的模型翻译性能下降问题。在此本发明先在基于Transformer的架构下添加一个数据选择网络,同时在利用双层优化技术的基础上通过最小化风险训练来同步更新数据选择网络和模型参数。本发明对通用领域数据和多个特定领域数据做到了有效平衡,解决了对于多个特定领域数据混合会造成模型翻译性能下降的问题。实验结果表明:在多领域神经机器翻译中,本发明从英语到德语和汉语到英语的BLEU值相比基线模型,分别平均提高了1.55和1.09。

    基于数据选择网络的多领域自适应神经机器翻译方法

    公开(公告)号:CN115048947A

    公开(公告)日:2022-09-13

    申请号:CN202210668398.0

    申请日:2022-06-14

    IPC分类号: G06F40/58 G06N3/04 G06N3/08

    摘要: 本发明提供基于数据选择网络的多领域自适应神经机器翻译方法。现有方法通常混合多个领域数据在单个模型上实现多领域翻译,但通常忽略通用领域和特定领域二者训练数据极不平衡现象导致的模型翻译性能下降问题。在此本发明先在基于Transformer的架构下添加一个数据选择网络,同时在利用双层优化技术的基础上通过最小化风险训练来同步更新数据选择网络和模型参数。本发明对通用领域数据和多个特定领域数据做到了有效平衡,解决了对于多个特定领域数据混合会造成模型翻译性能下降的问题。实验结果表明:在多领域神经机器翻译中,本发明从英语到德语和汉语到英语的BLEU值相比基线模型,分别平均提高了1.55和1.09。

    基于领域特定子网络DsCN的多领域自适应神经机器翻译方法

    公开(公告)号:CN116542266A

    公开(公告)日:2023-08-04

    申请号:CN202310582479.3

    申请日:2023-05-23

    摘要: 本发明提供基于领域特定子网络DsCN的多领域自适应神经机器翻译方法,涉及自然语言处理技术领域。多领域自适应神经机器翻译旨在利用单个模型来翻译多个域,多个域之间的联合训练被证明是成功的。然而,这种联合训练会导致资源丰富的领域,即一般领域的性能下降,将其归因于参数干扰。为了解决这些问题,本发明DsCN学习每个领域的子网络以对抗参数干扰。在英语到德语和中文到英语的多领域数据集上的大量实验表明,本发明的方法明显优于各种基线,分别提高了3BLEU。

    基于XLM-R的跨语言领域知识共享与转移翻译方法

    公开(公告)号:CN118133851A

    公开(公告)日:2024-06-04

    申请号:CN202410152766.5

    申请日:2024-02-03

    IPC分类号: G06F40/58 G06F40/44

    摘要: 本发明提出了一种基于XLM‑R的跨语言领域知识共享与转移翻译方法,属于机器翻译技术领域。本发明利用预训练的模型XLM‑R和两阶段的训练策略,实现了对多种语言和多个领域的适应,同时还设置了设计了特殊的领域标记,用于在编码器和解码器之间传递领域信息;最后,我们采用反向翻译技术对单语数据进行处理,以增强空白平行语句的质量,提高在没有见过的语言和领域上进行翻译的能力。通过在多语言多领域神经机器翻译任务中的实验验证,本发明的方法明显优于各种基线,获得了2.1到6.3个BLEU点的性能提升,尤其在低资源领域和零资源领域的机器翻译中表现出了明显的优势。

    基于领域特定子层隐变量的多领域自适应神经机器翻译方法

    公开(公告)号:CN115204196A

    公开(公告)日:2022-10-18

    申请号:CN202210823703.9

    申请日:2022-07-14

    摘要: 本发明提出基于领域特定子层隐变量的多领域自适应神经机器翻译方法。领域适应可以有效解决特定领域翻译性能差的问题,现有方法通常依靠混合多个领域数据来获得单个通用的多领域神经机器翻译模型。然而,大规模通用领域数据与多个特定领域数据的混合会造成最终模型灾难性遗忘、域间参数干扰的问题,从而导致性能下降以及通用领域模型容量不足的矛盾。因此本发明使用Gumbel‑Softmax重新参数化技巧同时学习模型参数和隐变量,获得的模型能学习特定领域的知识,并通过隐变量共享通用领域知识。实验结果表明,在多领域神经机器翻译中,本发明在英德和中英多领域神经机器翻译中比基线模型分别平均提高了3.2和1.68BLEU值。