-
公开(公告)号:CN114330375A
公开(公告)日:2022-04-12
申请号:CN202111338870.6
申请日:2021-11-12
申请人: 中译语通科技股份有限公司
IPC分类号: G06F40/58 , G06F40/47 , G06N3/08 , G06F40/295
摘要: 本发明是属于机器翻译技术领域,具体提供了一种基于固定范式的术语翻译方法及系统,其中方法包括:根据用户或者翻译需求,以key‑value储存形式存储在数据库中,当有新的术语原文翻译需求时,继续导入即可;根据训练集中的术语库,匹配训练语料中的句对,将原文术语替换为“__start__目标术语译文__end__”;将处理过的术语库加入训练集中,混淆后正常训练得到机器翻译模型;从数据库中读取术语库后,使用正向最大匹配算法匹配术语原文,并将术语匹配后的原文使用神经网络机器翻译模型进行翻译得到目标译文。利用固定范式,在不更改神经网络模型的情况下,通过模型训练,强化模型的学习这一范式的能力,仅仅在翻译前进行处理,使得某些术语的译文可以人为指定。
-
公开(公告)号:CN113051889A
公开(公告)日:2021-06-29
申请号:CN202110380070.4
申请日:2021-04-09
申请人: 中译语通科技股份有限公司
IPC分类号: G06F40/211 , G06F40/58
摘要: 本发明属于机器翻译断句处理技术领域,公开了一种面向波斯语机器翻译的断句方法、系统及应用,获取待处理的波斯语句子,对句子进行预处理,将其中波斯语数字转成阿拉伯数字;前向规则切分:利用正向匹配的方法,遇小数进行判断的方式,通过句子分隔符将波斯语句子进行初步切分;采取分类的方式,将句子长度分成两类进行细化切分;采用2000句测试集,尝试多种分句参数,选择机器翻译效果、翻译准确率较高的为最后的标准参数,得出分句模型;所述系统包括:语料获取模块、语料预处理模块、前向规则切分模块、细化切分模块、分句模型获取模块。本发明通过规则与分类处理方法,将波斯语进行分句,提高波斯语的翻译效果与准确率。
-
公开(公告)号:CN114595703A
公开(公告)日:2022-06-07
申请号:CN202210225492.9
申请日:2022-03-09
申请人: 中译语通科技股份有限公司
摘要: 本申请公开了一种交互式机器翻译方法和装置、存储介质、电子装置。该方法包括:获取用户录入的交互文本和源语言端文本,源语言端文本为采用第一语言的文本,用户录入的交互文本为采用第二语言录入的、用于表示源语言端文本中部分文本的文本;将用户录入的交互文本和源语言端文本输入机器翻译模型,得到机器翻译模型输出的最终翻译文本,机器翻译模型用于将采用第一语言的文本翻译为采用第二语言的文本,最终翻译文本包括用户录入的交互文本。本申请解决了相关技术中机器翻译无法实时更改翻译结果的技术问题。
-
公开(公告)号:CN115048945A
公开(公告)日:2022-09-13
申请号:CN202210325491.1
申请日:2022-03-29
申请人: 中译语通科技股份有限公司
IPC分类号: G06F40/58 , G06F40/166 , G06F3/0481
摘要: 本申请公开了一种翻译文本的生成方法和装置、存储介质、电子装置。其中,该方法包括:获取第一文本,第一文本为采用第一语言的、待翻译为第二语言的文本;展示机器翻译模型对第一文本进行翻译得到的第二文本,第二文本为采用第二语言的文本;根据与用户的交互,对第二文本中的部分词语进行替换,得到第三文本,第二文本中被替换的词语与第三文本中替换后的词语为第一文本中同一目标词语的翻译,可以解决相关技术中人工智能模型在翻译过程中没法人工干预的技术问题。
-
公开(公告)号:CN114611496A
公开(公告)日:2022-06-10
申请号:CN202210225493.3
申请日:2022-03-09
申请人: 中译语通科技股份有限公司
IPC分类号: G06F40/242 , G06F40/284 , G06F40/216 , G06F40/58
摘要: 本申请公开了一种词典的生成方法和装置、存储介质、电子装置。其中,该方法包括:获取原始词典,原始词典中包括多个词语;从原始词典中选取参考词语,按照参考词语对原始词典中的词语进行处理,得到对原始词典进行优化后的目标词典,目标词典中的词语用于在机器翻译中使用,由于进行了优化处理,可以解决机器翻译中词典过大的技术问题。
-
公开(公告)号:CN114548127A
公开(公告)日:2022-05-27
申请号:CN202210211653.9
申请日:2022-03-04
申请人: 中译语通科技股份有限公司
IPC分类号: G06F40/58 , G06F40/49 , G06F40/151 , G06N3/04
摘要: 本发明属于语言翻译技术领域,具体公开了一种新老维吾尔文字的混合神经机器翻译及系统,其中方法包括:S1,获取拉丁文、中文、英文三者之间的相互翻译的三方语料库;S2,将老拉丁维吾尔文字语料库与新拉丁维吾尔文字语料库合并成统一拉丁维吾尔文字语料库;S3,将所述三方语料库、老拉丁维吾尔文字语料库及新拉丁维吾尔文字语料库进行联合训练,得到新维吾尔文字、老维吾尔文字、英文、中文、拉丁文的混合机器翻译模型。过新老维吾尔文字之间与拉丁文的联系,在老维吾尔文字中文双语语料的基础上,借助字母转写规则,将老维吾尔文字与新维吾尔文字转为拉丁字母,利用回翻构建伪平行语料实现新老维吾尔文字的混合机器翻译模型。此外,通过借助英文翻译,实现富资源迁移,实现新老维吾尔文字工业化利用,且翻译效果佳。
-
公开(公告)号:CN113051913A
公开(公告)日:2021-06-29
申请号:CN202110380044.1
申请日:2021-04-09
申请人: 中译语通科技股份有限公司
IPC分类号: G06F40/289 , G06F40/284 , G06F40/242 , G06N3/04 , G06N3/08
摘要: 本发明属于信息处理技术领域,公开了一种藏文分词信息处理方法、系统、存储介质、终端及应用,所述藏文分词信息处理方法通过词向量、卷积神经网络以及条件随机场对分词语料进行学习,生成藏文单词分界规则,最终实现对藏文的分词。所述藏文分词信息处理系统包括:词向量预处理模块;模型结构搭建模块;词向量训练模块;词向量训练停止判断模块。在藏文中,本发明使用人工神经网络和深度学习解决,通过学习藏文词向量,利用卷积神经网络(CNN)模型和条件随机场(CRF)来预测单词的边界;将句子中的字符序列与手动标记的单词边界的序列进行匹配来迭代地训练网络,获得权重,也就是最后的参数。
-
-
-
-
-
-