-
公开(公告)号:CN115017921A
公开(公告)日:2022-09-06
申请号:CN202210228940.0
申请日:2022-03-10
申请人: 延边大学
摘要: 本发明公开了基于多粒度表征的朝汉神经机器翻译方法,包括:采集朝鲜语语料的文本数据并进行预处理,获得语料文本数据的多粒度序列表示;构建神经机器翻译模型,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译,获得目标语言译文。本发明通过利用源语言的语言结构信息改善机器翻译模型的性能,增强了朝鲜语句法和语义信息建模能力。
-
公开(公告)号:CN112668306A
公开(公告)日:2021-04-16
申请号:CN202011523142.8
申请日:2020-12-22
申请人: 延边大学
IPC分类号: G06F40/211 , G06F40/284 , G06F40/289 , G06F40/30 , G06F16/35 , G06K9/62
摘要: 本申请公开了一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统,包括构建核心结构网络、语句结构化优化分类处理和最优化文本结构采样判定。本发明提出了识别重要单词的语句强化学习动作设计模块,与识别重要结构的设计模块来构建结构化表示。引入注意力机制后能够更好的覆盖到短语的关注度,注意力机制能够辅助强化学习更快地拟合,可以提升学习效率。
-
公开(公告)号:CN113901215B
公开(公告)日:2022-04-26
申请号:CN202111176761.9
申请日:2021-10-09
申请人: 延边大学
摘要: 本发明公开了一种融合高低层语义信息的文本蕴含识别方法,包括:S1、采用预训练的词向量和字符级别的词向量进行处理,获得样本集;S2、将所述样本集进行训练,获得低层语义信息;S3、将所述低层语义信息进行双向注意力机制处理,再计算其自注意力获得高层语义信息;S4、将所述低层语义信息和高层语义信息进行融合,获得融合语义信息,通过卷积神经网络进行分类。本申请能够降低文本蕴含识别的难度,使得文本蕴含识别不再是文本表面含义的识别,从而大大提高了文本蕴含识别的效率和准确率。
-
公开(公告)号:CN112765996B
公开(公告)日:2021-08-31
申请号:CN202110069256.8
申请日:2021-01-19
申请人: 延边大学
摘要: 本发明公开了基于强化学习和机器翻译质量评估的中朝机器翻译方法,主要包括以下步骤:将句子级别评价机制引入翻译模型中指导模型的训练,评价机制采用机器翻译质量评估,指导策略采用强化学习方法;机器翻译过程中,NMT系统作为强化学习的智能体,通过不断与环境进行交互获取当前时刻环境状态信息,根据当前环境的状态决策出下一步所选单词,同时获得当前状态执行选词操作后的奖励值,进入下一状态;通过机器翻译质量评估模型生成反馈信号,将机器翻译质量评估模型的输出作为奖励分数的一部分,所述模型通过网络结构对生成的译文进行全面评分。
-
公开(公告)号:CN115017921B
公开(公告)日:2023-08-01
申请号:CN202210228940.0
申请日:2022-03-10
申请人: 延边大学
摘要: 本发明公开了基于多粒度表征的朝汉神经机器翻译方法,包括:采集朝鲜语语料的文本数据并进行预处理,获得语料文本数据的多粒度序列表示;构建神经机器翻译模型,基于所述神经机器翻译模型对所述语料文本数据的多粒度序列进行翻译,获得目标语言译文。本发明通过利用源语言的语言结构信息改善机器翻译模型的性能,增强了朝鲜语句法和语义信息建模能力。
-
公开(公告)号:CN114386437B
公开(公告)日:2022-09-27
申请号:CN202210035223.6
申请日:2022-01-13
申请人: 延边大学
IPC分类号: G06F40/51 , G06F40/211 , G06N3/04 , G06N3/08
摘要: 本申请公开了基于跨语言预训练模型的中朝翻译质量估计方法和系统,本方法包括:将源语言句子和机器译文拼接,并使用XLM‑R模型得到拼接句子的初始特征矩阵;对初始特征矩阵进行注意力计算,并通过卷积神经网络进行句子嵌入,得到句子向量;基于句子向量,使用全连接神经网络计算得到质量估计得分。本系统包括跨语言特征提取模块、注意力计算模块和质量估计模块;跨语言特征提取模块使用XLM‑R模型对待评估句对进行特征提取,并生成初始特征矩阵;注意力计算模块对初始特征矩阵进行注意力计算,得到句子向量;质量估计模块计算得到翻译质量估计的得分。本申请的句子嵌入质量高,有利于质量估计,有效提升中朝机器翻译质量估计任务的性能。
-
公开(公告)号:CN114386437A
公开(公告)日:2022-04-22
申请号:CN202210035223.6
申请日:2022-01-13
申请人: 延边大学
IPC分类号: G06F40/51 , G06F40/211 , G06N3/04 , G06N3/08
摘要: 本申请公开了基于跨语言预训练模型的中朝翻译质量估计方法和系统,本方法包括:将源语言句子和机器译文拼接,并使用XLM‑R模型得到拼接句子的初始特征矩阵;对初始特征矩阵进行注意力计算,并通过卷积神经网络进行句子嵌入,得到句子向量;基于句子向量,使用全连接神经网络计算得到质量估计得分。本系统包括跨语言特征提取模块、注意力计算模块和质量估计模块;跨语言特征提取模块使用XLM‑R模型对待评估句对进行特征提取,并生成初始特征矩阵;注意力计算模块对初始特征矩阵进行注意力计算,得到句子向量;质量估计模块计算得到翻译质量估计的得分。本申请的句子嵌入质量高,有利于质量估计,有效提升中朝机器翻译质量估计任务的性能。
-
公开(公告)号:CN113901215A
公开(公告)日:2022-01-07
申请号:CN202111176761.9
申请日:2021-10-09
申请人: 延边大学
摘要: 本发明公开了一种融合高低层语义信息的文本蕴含识别方法,包括:S1、采用预训练的词向量和字符级别的词向量进行处理,获得样本集;S2、将所述样本集进行训练,获得低层语义信息;S3、将所述低层语义信息进行双向注意力机制处理,再计算其自注意力获得高层语义信息;S4、将所述低层语义信息和高层语义信息进行融合,获得融合语义信息,通过卷积神经网络进行分类。本申请能够降低文本蕴含识别的难度,使得文本蕴含识别不再是文本表面含义的识别,从而大大提高了文本蕴含识别的效率和准确率。
-
公开(公告)号:CN112668306B
公开(公告)日:2021-07-27
申请号:CN202011523142.8
申请日:2020-12-22
申请人: 延边大学
IPC分类号: G06F40/211 , G06F40/284 , G06F40/289 , G06F40/30 , G06F16/35 , G06K9/62
摘要: 本申请公开了一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统,包括构建核心结构网络、语句结构化优化分类处理和最优化文本结构采样判定。本发明提出了识别重要单词的语句强化学习动作设计模块,与识别重要结构的设计模块来构建结构化表示。引入注意力机制后能够更好的覆盖到短语的关注度,注意力机制能够辅助强化学习更快地拟合,可以提升学习效率。
-
-
-
-
-
-
-
-