-
公开(公告)号:CN115496079A
公开(公告)日:2022-12-20
申请号:CN202211463449.2
申请日:2022-11-22
IPC分类号: G06F40/58 , G06F40/289 , G06F40/242 , G06F40/211
摘要: 本发明涉及自然语言的处理及转换技术领域,特别是指一种中文翻译方法,所述方法包括:S1、对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;S2、对所述外语化笔画序列进行密文数据增强,得到密文;S3、对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;S4、用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;S5、使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。采用本发明,明显地提升了翻译效果并减少了模型参数量。
-
公开(公告)号:CN115496079B
公开(公告)日:2023-02-03
申请号:CN202211463449.2
申请日:2022-11-22
IPC分类号: G06F40/58 , G06F40/289 , G06F40/242 , G06F40/211
摘要: 本发明涉及自然语言的处理及转换技术领域,特别是指一种中文翻译方法,所述方法包括:S1、对训练集的中文源数据进行外语化笔画序列建模,得到所述中文源数据的外语化笔画序列;S2、对所述外语化笔画序列进行密文数据增强,得到密文;S3、对所述外语化笔画序列的数据集和所述密文的数据集,以及对应译文的数据集进行联合子词学习,并对文本进行切分,得到后续模型训练的最终数据集;S4、用所述最终数据集,对变换器Transformer模型进行多源一致性训练,得到中文神经机器翻译模型;S5、使用所述中文神经机器翻译模型,将待翻译语句翻译成目标语句。采用本发明,明显地提升了翻译效果并减少了模型参数量。
-
-