翻译质量测评方法及装置
    21.
    发明公开

    公开(公告)号:CN111985251A

    公开(公告)日:2020-11-24

    申请号:CN201910422427.3

    申请日:2019-05-21

    Applicant: 南京大学

    Abstract: 本公开涉及一种翻译质量测评方法及装置,所述方法包括:接收待测评的目标语言语句和对应的源语言语句;获取所述源语言语句的特征信息和所述目标语言语句的特征信息;对所述源语言语句的特征信息和所述目标语言语句的特征信息进行处理,得到测评信息。利用本公开各实施例,可以提高翻译质量测评结果的可靠性。

    利用外部信息的神经机器翻译系统及翻译系统的训练方法

    公开(公告)号:CN108845994B

    公开(公告)日:2020-05-01

    申请号:CN201810582125.8

    申请日:2018-06-07

    Applicant: 南京大学

    Abstract: 本公开涉及利用外部信息的神经机器翻译系统及翻译系统的训练方法。利用外部信息的神经机器翻译系统包括:源端编码器神经网络,用于接收源端源语言的文字序列作为源端输入;外部信息编码器神经网络,用于接收目标语言的文字序列作为外部信息输入;目标端解码器神经网络,用于根据源端输入和外部信息输入,计算结合外部信息的翻译预测概率分布,根据结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。本公开提供的翻译系统,在翻译过程中输入外部信息,为翻译提供参考,有效提高了翻译效率;本公开提供的翻译系统的训练方法,能够适应考虑外部信息的神经机器翻译系统。

    一种自动探索更多参考译文信息的机器翻译优化方法

    公开(公告)号:CN107133223B

    公开(公告)日:2019-06-25

    申请号:CN201710262369.3

    申请日:2017-04-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种自动探索更多参考译文信息的机器翻译优化方法,利用图扩展参考译文的信息,对机器翻译得到的译文进行更充分的评价,同时在利用译文信息扩展的评价方法参与训练过程时,帮助系统更好的进行参数学习。主要步骤如下:利用GIZA++获取源端到目标端的词对齐信息,根据词对齐信息将参考译文切分成短语块,利用源端词序对每一个参考译文构建子图,将若干个子图合并,最终可将并列的若干个参考译文表示成一个参考译文图,将不同的参考译文联系起来,获得更多的信息,最终利用源语言将待评价译文和参考译文图之间联系起来,从图中选出一条与待评价译文最接近的路径进行最终的译文质量评价。

    利用基于词上下文的字嵌入与神经网络的中文分词方法

    公开(公告)号:CN107168955B

    公开(公告)日:2019-06-04

    申请号:CN201710368867.6

    申请日:2017-05-23

    Applicant: 南京大学

    Abstract: 本发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法,在大规模的自动切分数据上学习字嵌入,将学习得到的字嵌入作为神经网络分词模型的输入,可以有效帮助模型学习。具体步骤如下:根据字上下文以及词位标记在大规模自动切分数据上学习字嵌入,将字嵌入作为神经网络分词模型的输入,有效地提高了分词的性能。对比其它基于神经网络的中文分词技术,该方法采用了基于词上下文的字嵌入,有效地将词信息融合进了分词模型,成功的提高了分词任务的准确性。

    利用外部信息的神经机器翻译系统及翻译系统的训练方法

    公开(公告)号:CN108845994A

    公开(公告)日:2018-11-20

    申请号:CN201810582125.8

    申请日:2018-06-07

    Applicant: 南京大学

    Abstract: 本公开涉及利用外部信息的神经机器翻译系统及翻译系统的训练方法。利用外部信息的神经机器翻译系统包括:源端编码器神经网络,用于接收源端源语言的文字序列作为源端输入;外部信息编码器神经网络,用于接收目标语言的文字序列作为外部信息输入;目标端解码器神经网络,用于根据源端输入和外部信息输入,计算结合外部信息的翻译预测概率分布,根据结合外部信息的翻译预测概率分布生成源端源语言文字序列的译文作为目标端输出。本公开提供的翻译系统,在翻译过程中输入外部信息,为翻译提供参考,有效提高了翻译效率;本公开提供的翻译系统的训练方法,能够适应考虑外部信息的神经机器翻译系统。

    一种利用多样化文本特征进行文本分类的方法

    公开(公告)号:CN108664633A

    公开(公告)日:2018-10-16

    申请号:CN201810460235.7

    申请日:2018-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。

    一种基于状态转移与神经网络的汉语组块分析方法

    公开(公告)号:CN106021227B

    公开(公告)日:2018-08-21

    申请号:CN201610324281.5

    申请日:2016-05-16

    Applicant: 南京大学

    Abstract: 本发明提出了一种基于状态转移与神经网络的汉语组块分析方法,包括:将组块分析任务转换成序列化标注任务,使用基于状态转移的框架对句子进行标注,在标注的过程中使用前向神经网络来对每个状态将要进行的转移操作进行打分,并将利用双向长短记忆神经网络模型学习到的词以及词性标注的分布式表示特征作为标注模型的附加信息特征,从而提高组块分析的精确度。对比其它汉语组块分析技术,该汉语组块分析方法使用的基于状态转移的框架可以更灵活地添加组块级别的特征,同时神经网络的使用可以自动学到特征之间的组合方式,双向长短记忆神经网络模型的利用引入了有用的附加信息特征,三者的结合有效提高了组块分析的准确度。

    基于新型神经网络的自然语言并列结构的自动识别方法

    公开(公告)号:CN105868181B

    公开(公告)日:2018-08-21

    申请号:CN201610250258.6

    申请日:2016-04-21

    Applicant: 南京大学

    Abstract: 本发明提出了基于新型神经网络的自然语言并列结构的自动识别方法,包括:先对待分析的句子进行句法分析处理,得到一个并列结构的候选集合,然后利用新型的神经网络学习器对候选集合中的并列结构进行打分,从而选出最佳的并列结构作为系统的最终输出。本方法综合考虑了并列结构的短语独立性和短语之间的相似性,提高了并列结构识别精度。对比现有的其他技术,本方法突出在能够自动识别出任意的并列结构,而其他技术只能识别出特定类型的并列结构,如只有名词组成的并列结构。本方法提出了一种更有效的并列结构识别方法,在实际应用中提高了识别质量。

    利用基于词上下文的字嵌入与神经网络的中文分词方法

    公开(公告)号:CN107168955A

    公开(公告)日:2017-09-15

    申请号:CN201710368867.6

    申请日:2017-05-23

    Applicant: 南京大学

    CPC classification number: G06F17/2775 G06F17/2785 G06N3/02

    Abstract: 本发明提出了一种利用基于词上下文的字嵌入与神经网络的中文分词方法,在大规模的自动切分数据上学习字嵌入,将学习得到的字嵌入作为神经网络分词模型的输入,可以有效帮助模型学习。具体步骤如下:根据字上下文以及词位标记在大规模自动切分数据上学习字嵌入,将字嵌入作为神经网络分词模型的输入,有效地提高了分词的性能。对比其它基于神经网络的中文分词技术,该方法采用了基于词上下文的字嵌入,有效地将词信息融合进了分词模型,成功的提高了分词任务的准确性。

    一种计算机中译英翻译中基于分词网的词对齐融合方法

    公开(公告)号:CN102193915A

    公开(公告)日:2011-09-21

    申请号:CN201110148692.0

    申请日:2011-06-03

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中译英翻译中基于分词网的汉英词对齐融合方法,包括以下步骤:步骤一,确定骨架对齐:用基于连接置信度的连接选择算法搜索选择最优的骨架连接,形成骨架对齐;步骤二,将选出骨架对齐投影到各个分词上,得到基于各种分词的词对齐。本发明对现有的基于单一分词的词对齐算法进行改善和提高,能同时提高了各个分词的词对齐质量和机器翻译质量。通过将多种分词下用于词对齐的特征融合起来,让最终的词对齐更加健壮,可以降低受分词错误或者双语分词不一致影响的词对齐错误数量。

Patent Agency Ranking