一种基于预训练方法的神经机器翻译系统的构建方法

    公开(公告)号:CN115730612A

    公开(公告)日:2023-03-03

    申请号:CN202211546376.3

    申请日:2022-12-05

    发明人: 徐萍 代孟丽

    摘要: 本发明公开一种基于预训练初始化方法的神经机器翻译系统的构建方法,从互联网获取开源的机器翻译双语数据;从Fairseq开源系统获取端到端预训练模型及其相关文件;通过数据预处理策略对双语数据进行处理得到预处理后的双语数据;对端到端预训练模型扩展新的语言并修改相关文件;使用预处理后的双语数据和修改后的模型及相关文件,基于Fairseq开源系统在预训练模型上进行微调训练,得到神经机器翻译模型;将训练完成的模型进行封装,在服务器上部署,实现神经机器翻译系统。本发明可为神经机器翻译模型提供丰富的知识;大规模数据上训练的预训练模型拥有更加通用的知识,在机器翻译任务上具有更强的泛化能力,提升机器翻译性能。

    一种应用特征金字塔的图片字幕生成方法

    公开(公告)号:CN114782848A

    公开(公告)日:2022-07-22

    申请号:CN202210233662.8

    申请日:2022-03-10

    发明人: 徐萍 毕东

    摘要: 本发明公开一种应用特征金字塔的图片字幕生成方法,步骤为:将预处理后的图片输入特征金字塔模块中,抽取特征图作为图片特征信息,和预处理后的图片并称为低维度、高维度、原始维度三种不同尺度的图片特征;将原始维度图片特征送入嵌入层转换成向量表示;将三种不同尺度的图片特征送入编码器的第一层,进行维度缩放;将维度大小一致的隐层信息送入编码器中堆叠的高层得到三种编码器特征,通过拼接得到融合后的图片特征送入模型的解码器进行解码;通过交叉熵损失函数进行梯度更新,优化模型权重,得到图片字幕生成方法。本发明从图片的不同角度和不同的视野距离来增强图片的语义表达能力有效降低了编码器中自注意力机制和前馈神经网络的计算成本。

    一种基于预训练的多模态机器翻译方法

    公开(公告)号:CN114742075A

    公开(公告)日:2022-07-12

    申请号:CN202210347414.6

    申请日:2022-04-01

    发明人: 刘兴宇 张秋林

    IPC分类号: G06F40/58 G06K9/62

    摘要: 本发明提供一种基于预训练的多模态机器翻译方法,步骤为:处理多模态机器翻译数据集Multi30k,包含文本描述和图像两部分输入;构建Vision Transformer模型,处理图片输入,得到图片编码表示;继承Huggingface的预训练参数,构建基于Transformer结构的mBart模型;mBart模型的文本编码模块处理文本输入,得到文本编码表示;设计提示模板,连接图片编码表示和文本编码表示,送入mBart模型的编码器模块;固定mBart模型的预训练参数,将KL散度引入损失函数计算,进行模型的微调。本发明通过继承大规模文本预训练模型的参数,微调图像编码表示模块,有效地将大规模文本预训练知识应用到多模态机器翻译,提升多模态机器翻译的性能,为后续其他多模态任务的研究提供思路。

    一种神经机器翻译系统的性能提升方法

    公开(公告)号:CN114528855A

    公开(公告)日:2022-05-24

    申请号:CN202210090738.6

    申请日:2022-01-26

    发明人: 杨迪 代孟丽

    IPC分类号: G06F40/58 G06N3/04 G06N3/08

    摘要: 本发明公开一种神经机器翻译系统的性能提升方法,步骤为:处理训练数据并初始化神经机器翻译系统的参数;将神经机器翻译系统中的绝对位置编码生成规则调整为乘积式正余弦编码生成规则;输入训练数据,将绝对位置编码读入神经机器翻译系统,与输入源语句的词向量相加,得到与位置信息融合的词向量,并送入神经机器翻译模型;使用梯度下降方法训练神经机器翻译系统至收敛,训练过程与现有神经机器翻译系统的训练过程一致;在解码过程中,对于绝对位置编码生成规则,与乘积式正余弦编码生成规则保持一致。本发明在不改变神经机器翻译系统参数量与计算量的前提下,提升了翻译系统对输入语言语序的识别能力,有效地提升了神经机器翻译系统的翻译性能。

    一种可学习未来信息的机器翻译方法

    公开(公告)号:CN114528853A

    公开(公告)日:2022-05-24

    申请号:CN202210016283.3

    申请日:2022-01-07

    IPC分类号: G06F40/58 G06N3/04 G06N3/08

    摘要: 本发明公开一种可学习未来信息的机器翻译方法,步骤为:在解码器端加入未来信息网络模块,构建可学习未来信息的机器翻译模型;处理训练数据,利用词嵌入模型,将得到词嵌入表示;参数初始化和模型训练优化;在编码器中,对词嵌入进行计算并获得词嵌入向量中更多的信息,操作n次后,该模型即学到了句子的特征信息;可学习未来信息的机器翻译模型学习源语与目标语之间的关联信息,未来信息网络将学到的信息送回解码器,辅助解码器解码;利用训练好的可学习未来信息的机器翻译模型进行机器翻译实现可学习未来信息的机器翻译方法。本发明方法改善了现有神经机器翻译范式的不足,提高了神经机器翻译模型对平行语料的信息捕获能力和模型的翻译性能。

    一种应用于机器翻译的知识融合方法

    公开(公告)号:CN114118106A

    公开(公告)日:2022-03-01

    申请号:CN202111269722.3

    申请日:2021-10-29

    发明人: 杨迪 毕东

    IPC分类号: G06F40/58 G06N3/04 G06N3/08

    摘要: 本发明公开一种应用于机器翻译的知识融合方法,步骤为:使用双语语料库进行训练一个或多个神经机器翻译模型作为知识的提供者,也就是教师模型;对语料库中的源语S进行翻译和教师模型知识提取;进行知识的融合;复制源语S,并进行拼接,最终获得知识融合后的语料;训练最终使用的神经机器翻译模型;对双语语料库中的源语句进行解码,首先把对应源语句使用相同句子拼接方法,并且使用分隔符号进行分隔,然后送进最终所训练的神经机器翻译模型中进行解码,之后对解码出来的结果进行分隔,分隔标识为句子拼接时所用分隔符,实现知识融合。本发明解决了知识往往带有较多错误的问题,可将教师模型的知识和真实语料中的知识相互融合形成知识丰富的语料。

    一种面向声学编码的逐步压缩方法

    公开(公告)号:CN114007075A

    公开(公告)日:2022-02-01

    申请号:CN202111440309.9

    申请日:2021-11-30

    发明人: 杜权 张秋林

    IPC分类号: H04N19/176 H04N19/132

    摘要: 本发明公开一种面向声学编码的逐步压缩方法,步骤为:1)针对声学任务,利用信号处理方法从原始音频文件中提取到基于帧的音频特征序列;2)随机初始化声学模型的参数,使用声学模型对音频特征序列进行编码,编码过程中逐步压缩序列长度;3)对编码过程中的音频特征进行融合;4)将融合后的表示传递给语音识别模块或语音翻译模块,完成整个建模过程。本发明在编码过程中逐渐压缩特征序列的长度,降低了模型对计算资源的需求;同时避免了在压缩过程中导致的信息丢失问题,从而可以实现更加有效的编码;可应用于多种声学任务中,不仅可以加快模型的计算速度,且有效地提高了模型性能。

    一种基于软约束的诗词自动生成方法

    公开(公告)号:CN113420555A

    公开(公告)日:2021-09-21

    申请号:CN202110676234.8

    申请日:2021-06-18

    摘要: 本发明公开一种基于软约束的诗词自动生成方法,步骤为:网上收集现存古诗词数据进行预处理,以字为单位对每条诗词数据进行格式化处理形成训练数据,构建古诗词数据训练模型;收集《中华通韵》中的平仄、韵脚信息数据,制作诗词平仄押韵检测工具;古诗词数据训练模型在训练时引入诗词的格律信息生成古诗生成模型,在古诗生成模型的基础上调低学习率、批量数、训练轮数参数用词数据继续进行训练,收敛后得到词生成模型;用户输入任意多个关键词,并且指定平仄和需要的韵部,系统将这些信息送到古诗生成模型和/或词生成模型中,模型自动生成符合要求的诗词内容。本发明方法生成的内容符合诗词格律,使得模型可在统一的框架下生成各种体裁的诗词。

    一种基于梯度神经网络结构搜索的命名实体识别方法

    公开(公告)号:CN112270194A

    公开(公告)日:2021-01-26

    申请号:CN202011212057.X

    申请日:2020-11-03

    发明人: 杜权

    IPC分类号: G06F40/295 G06N3/04 G06N3/08

    摘要: 本发明涉及一种基于梯度神经网络结构搜索的命名实体识别方法,通过数据网站获取命名实体识别任务的常用数据集,并处理为conll格式;获取数据中单词和字符的分布式表示,将其拼接后作为模型输入;搭建命名实体识别任务的主体模型和循环计算单元搜索结构;进行归一化处理;对循环神经单元的操作权重矩阵和模型整体参数同时进行优化;将连续化的结构表示转化为离散化的结构;搭建命名实体识别任务的完整模型结构,训练和参数调优;使用训练收敛后的完整模型进行命名实体识别,并使用准确度表征模型性能。本发明将基于梯度的结构搜索方法运用到结构较复杂的命名实体识别任务实现中,并根据命名实体识别任务的特殊性进行调整,使其性能得到提升。

    一种多语言神经机器翻译性能提升方法

    公开(公告)号:CN112257468A

    公开(公告)日:2021-01-22

    申请号:CN202011212799.2

    申请日:2020-11-03

    发明人: 杜权

    摘要: 本发明公开一种多语言神经机器翻译性能提升方法,构建多语言平行语料库和基于注意力机制的多语言多层神经机器翻译模型进行训练,得到训多语言多层神经机器翻译模型;将不同语言相似语义句子输入到中不同训练轮数存储的模型中;利用余弦相似度计算其两两之间相似度;去除最低层和最顶层之外的层在训练过程中相似度的变化;根据相似度选择得出的相似度最低的一层;根据多语言平行语料库及多层多语言神经机器翻译模型,训练到轮数后停止,选取根据步骤5)中得到层数,为每一种语言重复这一层参数,继续训练并且每个语种独享这一层参数,直到模型收敛停止。本发明减少训练过程中语言间的干扰,最终达到提升多语言神经机器翻译模型的翻译性能的目的。