一种用于机器翻译的从大语言模型学习的评估方法

    公开(公告)号:CN116796765A

    公开(公告)日:2023-09-22

    申请号:CN202310858780.2

    申请日:2023-07-13

    发明人: 杨木润 杨迪

    IPC分类号: G06F40/58

    摘要: 本发明公开一种用于机器翻译的从大语言模型学习的评估方法,将评估能力从大语言模型LLM转移到相对轻量级的语言模型,以缓解使用大语言模型进行评估时的计算压力,使用监督训练在给定数据集上训练一个机器翻译模型并收集采样数据;使用大语言模型LLM标注收集到的采样数据中的每个样本的质量得分;使用每个样本的质量得分对相对轻量级的预训练语言模型进行微调得到一个评估模型;将评估模型用于机器翻译模型,使用评估模型作为奖励模型,通过强化学习和重排序优化机器翻译模型。本发明使用人类自然语言调整LLM的评估依据,对人员水平要求降低;数据不需要人工标注,节省大量成本,解决了没有提供参考答案的情况无法计算指标的难题。

    一种基于预训练模型的词对齐性能提升方法

    公开(公告)号:CN113408267B

    公开(公告)日:2023-09-01

    申请号:CN202110695209.4

    申请日:2021-06-23

    摘要: 本发明公开一种基于预训练模型的词对齐性能提升方法,步骤为:使用预训练模型获取句子中词语的词向量,构成互译句对的词向量矩阵X和Y;对词向量矩阵X和Y进行短语和术语的抽取,把短语和术语中的词的词向量进行加和平均处理,获得更新后的互译句对词向量矩阵X和Y;将词语和词语之间的词向量余弦计算值作为两个词之间的相似度,获得互译句对的相似度矩阵Sim;对Sim进行卷积操作,使得词对齐融入上下文词的信息;使用不同的词对齐抽取方法分别从更新后的互译句对相似度矩阵中抽取对应的词对齐信息。本发明通过基于预训练方法解决了深度学习需要训练数据大的问题,使用短语和术语表进行匹配,来解决预训练中词语之间相关度不大,而导致词语之间对齐不统一的问题。

    一种应用于机器翻译的强化学习训练方法

    公开(公告)号:CN116306899A

    公开(公告)日:2023-06-23

    申请号:CN202310279777.5

    申请日:2023-03-22

    发明人: 杜权 丛明辉

    摘要: 本发明公开一种应用于机器翻译的强化学习训练方法,步骤为:使用双语语料训练神经机器翻译模型,使其收敛;在机器翻译模型顶层加入额外的词嵌入生成模块,预测生成词的词嵌入;基于KL散度训练词嵌入生成模块,其对应的目标表示为标准NMT经过Argmax函数计算出来的词,并对应在词嵌入层里面的编码表示;训练该机器翻译模型,通过词嵌入生成模块来预测当前步中的生成词的词向量;在机器翻译模型的词嵌入层中使用K近邻算法来获取所有候选生成词,并使用强化学习算法计算每个候选生成词的价值,最终选定对应最后生成词,更新模型参数。本发明使用了一个创新的词嵌入生成模块,可以有效地缓解机器翻译训练过程中高维向量和超大词表问题。

    一种面向XML文档的可配置神经机器翻译方法

    公开(公告)号:CN111178088B

    公开(公告)日:2023-06-02

    申请号:CN201911324182.7

    申请日:2019-12-20

    发明人: 杜权 刘兴宇

    摘要: 本发明公开一种面向XML文档的可配置神经机器翻译方法,步骤为:定义标签翻译策略;准备大量的双语对齐语料,使语义单元分布到训练语料中;将构造好的训练数据,预处理后送到神经机器翻译模型中进行训练,训练至收敛时保存模型文件;加载训练好的模型到解码器中;将标签翻译策略写入一个配置文件中;根据配置好的翻译策略,将输入源语经过解码前处理,将不同策略的标签替换成对应的语义单元,再进行分词操作后送入解码器获取翻译结果;解码器返回的翻译结果为含有特定语义单元的结果,将语义单元替换回事先存储的标签,得到完整的标签译文写出到XML文件。本发明方法提取文本翻译模型本身就认识标签的存在,能自主解码出带标签的译文。

    一种基于网络结构搜索的图像描述生成方法

    公开(公告)号:CN116091837A

    公开(公告)日:2023-05-09

    申请号:CN202310157738.8

    申请日:2023-02-23

    发明人: 刘兴宇 姜炎宏

    摘要: 本发明公开一种基于网络结构搜索的图像描述生成方法,包括以下步骤:使用网络结构优化方法基于图像分类任务搜索卷积单元,获得普通卷积与规约池化单元结构;使用搜索出的单元结构构建出模型结构,并将模型结构基于图像分类数据集进行训练;使用搜索训练得到的卷积单元模型结构构建视觉注意力模型,应用于图像描述生成任务;基于束搜索对得到的上述应用于图像描述生成任务的视觉注意力模型进行解码与评估,实现图像描述的生成。本发明解决了当前网络结构搜索技术在各领域重量级任务上应用不足的问题,成功地将网络结构优化方法基于轻量级图像分类任务搜索的卷积结构单元应用到更复杂的图像理解任务中,有效减少模型的参数量,提升相应任务的性能。

    一种基于预训练的稀缺资源神经机器翻译训练方法

    公开(公告)号:CN111178094B

    公开(公告)日:2023-04-07

    申请号:CN201911323619.5

    申请日:2019-12-20

    发明人: 杜权

    摘要: 本发明公开一种基于预训练的稀缺资源神经机器翻译训练方法,步骤为:构建海量的单语语料,进行分词和子词切分预处理流程,获取收敛后的模型参数;构建平行语料,随机初始化神经机器翻译模型的参数,神经机器翻译模型的词嵌入层和隐藏层的大小和预训练语言模型相同;将预训练模型集成到神经机器翻译模型中;神经机器翻译模型通过平行语料进行训练,使得生成目标语句子和真实的翻译结果更加相似,完成神经机器翻译模型训练过程;将用户输入的源语句子送入到神经机器翻译模型中,神经机器翻译模型通过贪婪搜索或束搜索生成翻译结果。本发明充分利用了单语数据中的知识,相比随机初始化的神经机器翻译模型,可以明显提高翻译性能。

    基于预训练知识增强的低资源神经机器翻译系统构建方法

    公开(公告)号:CN115879481A

    公开(公告)日:2023-03-31

    申请号:CN202211583954.0

    申请日:2022-12-09

    发明人: 付鹏飞 周星宏

    摘要: 本发明公开一种基于预训练知识增强的低资源神经机器翻译系统构建方法,在网络上获取Transformer编码器的预训练语言模型;获取需要构建神经机器翻译系统的低资源语言对数据集并清洗;获取语言分析工具对训练数据进行分析,掩码关键词,并使用处理过的数据微调预训练语言模型;搭建神经机器翻译模型,使用Transformer解码器并随机初始化参数作为神经机器翻译模型解码器;逐步训练神经机器翻译模型的编码器和解码器;将训练好的神经机器翻译模型部署在高性能云服务器上,并搭建前端及后端处理程序,完成整个机器翻译系统构建。本发明在多个方法上取得性能提升,能够在两阶段训练的基础上,进一步提升机器翻译模型的性能。

    一种基于语音合成数据的语音翻译模型建模方法和设备

    公开(公告)号:CN115828943A

    公开(公告)日:2023-03-21

    申请号:CN202211694653.5

    申请日:2022-12-28

    发明人: 杜权 杨木润

    IPC分类号: G06F40/58 G10L13/02

    摘要: 本发明涉及一种基于语音合成数据的语音翻译模型建模方法及设备,属于自然语言处理技术领域;解决了现有技术中语音翻译模型由于训练数据量较少,且利用不够充分,导致翻译结果不准确的问题;本发明的建模方法包括以下步骤:获取通用语音合成数据集,训练得到通用语音合成模型;获取目标领域的语音翻译数据集;利用语音翻译数据集中对通用语音合成模型进行微调,得到专用语音合成模型;将源语言标注文本输入专用语音合成模型,按预先设置的比例生成多条语音合成伪数据,得到伪语音数据集;构建初始语音翻译模型,利用目标领域的语音翻译数据集和伪语音数据集对初始语音翻译模型进行训练,经过损失函数迭代更新,得到语音翻译模型。

    一种双语平行数据一致性检测与纠正方法

    公开(公告)号:CN111178089B

    公开(公告)日:2023-03-14

    申请号:CN201911324133.3

    申请日:2019-12-20

    发明人: 杜权 李自荐

    IPC分类号: G06F40/45 G06F40/284

    摘要: 本发明公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。

    一种基于编码转换的多国语分词方法

    公开(公告)号:CN111178061B

    公开(公告)日:2023-03-10

    申请号:CN201911324149.4

    申请日:2019-12-20

    发明人: 杜权 徐萍

    IPC分类号: G06F40/284 G06F40/151

    摘要: 本发明公开一种基于编码转换的多国语分词方法,包括以下步骤:1)数据预处理:输入待分词的数据和语言标签,过滤数据中的多余空格并调整数据为UTF‑8编码格式;2)加载编码转换文件:根据步骤1)中输入的语言标签加载对应语言的编码转换资源文件;3)编码转换:使用步骤2)加载的编码转换资源文件对数据进行编码转换;4)分词:使用标点、空格等符号对编码转换后的数据进行分词处理。本发明提出的基于编码转换的多国语分词方法能够同时满足多国语言的不同编码特征,有针对性的根据不同语言的特征进行分析和编码转换,满足使用一种分词方法能够同时对多国语言分词的需求。