机器翻译效果评测方法、装置、设备及存储介质

    公开(公告)号:CN112052693B

    公开(公告)日:2024-07-05

    申请号:CN202010965988.0

    申请日:2020-09-15

    发明人: 罗佩

    IPC分类号: G06F40/51 G06F40/58

    摘要: 本申请公开了一种机器翻译效果评测方法、装置、设备及存储介质,本申请对于待翻译文本包含的每一子句,以该子句及其之前子句输入机器翻译工具得到翻译结果,作为该子句的机器译文,对每一子句的机器译文进行长度约束,约束后机器译文相比于机器译文删除了末尾的若干译文,进一步将每一子句的约束后机器译文与下一相邻子句的机器译文进行匹配,得到待翻译文本的机器译文的翻译约束损失,该翻译约束损失可以衡量机器翻译工具对待翻译文本进行翻译时,对待翻译文本整体的上下文连贯性的表达能力,基于翻译约束损失和参考译文,确定待翻译文本的机器译文评分,该评分考虑了更为细致的句子层级的连贯性,大大提升了机器译文评分的准确性和可靠性。

    一种基于多粒度特征的文本生成评价方法

    公开(公告)号:CN113901840B

    公开(公告)日:2024-04-19

    申请号:CN202111078487.1

    申请日:2021-09-15

    摘要: 本发明涉及一种基于多粒度特征的文本生成评价方法。为了获取不同粒度特征的语义表示,本发明首先采用MBERT得到参考句与生成句的子词序列并进行向量表征;基于此,根据构成音节与词组的子词组合,结合不同子词语义向量表征得到音节语义向量表征以及词组语义向量表征;其次,采用贪婪匹配分别对参考句与生成句不同粒度下的语义特征向量进行最大余弦相似度计算,使模型在多个粒度上考虑两个句子间的语义相关关系;最后,结合多粒度特征对生成句打分。本发明从子词、音节、词组三个粒度考虑,更大化的包容不同字词结构之间的差异性,能够更准确评估生成系统模型的好坏,同时也能有效引导生成模型提升性能。

    一种中英文信息融合的数据分级方法、服务器及存储介质

    公开(公告)号:CN116894427B

    公开(公告)日:2024-02-27

    申请号:CN202311154785.3

    申请日:2023-09-08

    发明人: 吴文琴 张心宇

    摘要: 本申请公开了一种中英文信息融合的数据分级方法、服务器及存储介质,属于数据处理领域,包括如下步骤:对待分级元数据进行处理形成标准分词列表;构建四种pair对样本集,并对多语言预训练模型进行领域预训练;通过encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;利用多种相关性准则计算二者的相关性,然后选取前K类作为候选分级集合;计算候选分级集合中各分级类型的频率,以频率最高的为最终分级结果。该服务器包括存储有上述方法的存储器和执行该方法的处理器;该存储介质存储有执行上述方法的计算机程序。本方法能够对低质量的数据库表进行数据分级。

    一种翻译质量评估方法、装置、设备及存储介质

    公开(公告)号:CN117436460A

    公开(公告)日:2024-01-23

    申请号:CN202311782453.X

    申请日:2023-12-22

    申请人: 武汉大学

    IPC分类号: G06F40/51 G06N3/045 G06N3/096

    摘要: 本发明公开了一种翻译质量评估方法、装置、设备及存储介质,其中该方法包括步骤:获取原始文本信息和翻译文本信息,并将所述原始文本信息和所述翻译文本信息拼接为文本序列;将所述文本序列输入至多语言预训练模型中进行特征提取,得到原始文本特征和翻译文本特征;将所述原始文本特征和翻译文本特征进行组合,得到融合原始文本特征和翻译文本特征的特征序列;利用平均池化层和特征混合层,对所述特征序列分别进行拆分和重组操作,并输出重组后的翻译特征,得到最终的预测分数,以对翻译质量进行评估。本申请能够提升英译中翻译的准确的,并且降低了训练成本,提高了模型的可迁移性。

    一种文档翻译的术语译文一致性检查方法

    公开(公告)号:CN117273020A

    公开(公告)日:2023-12-22

    申请号:CN202311135480.8

    申请日:2023-09-05

    发明人: 毛红保

    摘要: 本发明提供一种文档翻译的术语译文一致性检查方法,包括以下步骤:检索包含术语的双语句对、训练术语译文提取模型、检查术语译文一致性;在文档译后审校时,审校人员可以获得该文档的原文和译文双语平行句对。为检查术语译文的一致性,首先针对预先定义的需要进行译文一致性检查的术语,从原文中筛选包含这些术语的句子,获得相应的原文和译文句对;再基于本专利提出的术语译文提取模型,提取每个原文句子中的术语对应的译文句子中的术语译文,获得每个双语句对中包含的双语术语对;最后针对每个术语原文统计其在不同句子中对应的全部译文,若这些译文是一致的,则该术语通过了译文一致性检查,否则未通过。其中判断译文是否一致时需要先对译文进行词形还原,使得一致性检查可以兼容单复数、时态等差异带来的词形变化。

    一种基于BERT的中法互译质量测评方法

    公开(公告)号:CN117034961B

    公开(公告)日:2023-12-19

    申请号:CN202311297834.9

    申请日:2023-10-09

    申请人: 武汉大学

    IPC分类号: G06F40/51 G06N3/0455

    摘要: 本发明提供一种基于BERT的中法互译质量测评方法,属于自然语言处理技术领域,包括:采用BERT在中文和法文的语义表征能力,并结合翻译场景下的跨语言的情况,构建中法语言转换深度神经网络结构;采用语句翻译的词汇级别准确度打分方法,不依赖翻译词典,根据预先训练的词汇相关度模型进行词汇准确度打分,具有词汇准确度打分准确并且任意两个词汇之间皆可打分特点,并通过门控网络把两种得分融合;采用门控网络和句子语义表达BERT Fine‑Tune任务一起训练,并使用BERT的句子语义特征和词汇翻译位置偏移作为特征,确保门控结构能够针对不同情况调整词汇准确度得分和句子语义表达得分,保证最终测评打分的准确性。

    数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质

    公开(公告)号:CN113642337B

    公开(公告)日:2023-12-19

    申请号:CN202010394116.3

    申请日:2020-05-11

    IPC分类号: G06F40/51 G06F40/58 G06F40/44

    摘要: 本申请公开了一种数据处理方法和装置、翻译方法、电子设备以及计算机可读存储介质。该方法包括:获取针对互译句对的多组标注信息;分别计算各组标注信息的互译句对互译比;计算多个所述互译句对互译比中标准差小于预设阈值的部分互译句对互译比的平均值;选择与所述平均值的差值最小的互译句对互译比所属的标注信息,作为所述互译句对的参考标注信息。本申请实施例可以基于统计分布的平均值来合理地体现多个标注人员的平均水平,减少了由于标注人员的个体差异导致的评价不准确的问题。

    翻译评估方法、装置、系统及计算机存储介质

    公开(公告)号:CN112446221B

    公开(公告)日:2023-12-15

    申请号:CN201910748667.2

    申请日:2019-08-14

    IPC分类号: G06F40/51 G06F40/58

    摘要: 本发明实施例提供了一种机器翻译评估方法、装置、系统及计算机存储介质,其中,翻译评估方法包括:获取包括原文语句和对应的机器译文语句的待评估数据;将所述待评估数据输入翻译评估神经网络模型的第一部分,通过所述第一部分的编码器、基于注意力机制的正向解码器和反向解码器,获得第一部分输出数据,其中,所述第一部分输出数据包括:与所述原文语句对应的译文预测语句和所述译文预测语句的语义特征信息;将所述第一部分输出数据输入翻译评估神经网络模型的第二部分,获得所述机器译文语句的机器翻译质量评估结果。通过本发明实施例,降低了机器翻译质量评估的实现成本,提高了质量评估效率。

    一种基于RLHF的自适应机器翻译方法及存储介质

    公开(公告)号:CN116976361A

    公开(公告)日:2023-10-31

    申请号:CN202310690301.0

    申请日:2023-06-12

    IPC分类号: G06F40/51 G06F40/58

    摘要: 本发明涉及机器翻译领域,提供了一种基于RLHF的自适应机器翻译方法及存储介质。解决现有方法在处理多义词和歧义词时存在不足、没有考虑上下文语境的影响导致翻译结果不准确,难以进一步提高翻译质量和准确性。主要方案包括设计RLHF算法,选择针对翻译任务改进的PPO算法作为RLHF策略,用于中根据用户反馈调整和改进翻译系统的神经机器翻译模型;设计改进后的多语言机器翻译网络,构建自适应机器翻译模型根据用户反馈调整和改进其翻译,收集用户反馈,根据用户反馈利用强化学习策略更新自适应机器翻译模型参数,利用收集到的用户反馈,根据改进的PPO算法,再次更新自适应机器翻译模型的参数,以达到提升翻译准确性的目的。

    一种中英文信息融合的数据分级方法、服务器及存储介质

    公开(公告)号:CN116894427A

    公开(公告)日:2023-10-17

    申请号:CN202311154785.3

    申请日:2023-09-08

    发明人: 吴文琴 张心宇

    摘要: 本申请公开了一种中英文信息融合的数据分级方法、服务器及存储介质,属于数据处理领域,包括如下步骤:对待分级元数据进行处理形成标准分词列表;构建四种pair对样本集,并对多语言预训练模型进行领域预训练;通过encoder编码器将文本编码成向量,得到待分级元数据中英文信息的语义编码向量和企业分级标准的中英文描述语义编码向量;利用多种相关性准则计算二者的相关性,然后选取前K类作为候选分级集合;计算候选分级集合中各分级类型的频率,以频率最高的为最终分级结果。该服务器包括存储有上述方法的存储器和执行该方法的处理器;该存储介质存储有执行上述方法的计算机程序。本方法能够对低质量的数据库表进行数据分级。