自动判断检索机器翻译数据库时机的方法及存储介质

    公开(公告)号:CN115034240A

    公开(公告)日:2022-09-09

    申请号:CN202210794321.8

    申请日:2022-07-07

    Applicant: 南京大学

    Abstract: 本发明公开了自动判断检索机器翻译数据库时机的方法,方法包括如下步骤:将数据库中的知识划分为被掌握的知识和没被掌握的知识;根据数据库中局部空间内知识的掌握情况,为不同的知识确定知识边界值;将数据库中知识的知识边界值情况作为训练数据,训练一个轻量的多层感知机网络模型,通过多层感知机网络模型预测隐层表示对应的的知识边界值情况;解码翻译目标领域文本时,使用通用领域翻译模型得到翻译上下文的隐层表示之后,根据知识边界值情况,判断通用领域翻译模型在每个解码步时是否需要检索数据库。本发明避免了通用领域翻译模型在每个解码步时不必要的检索行为,在应用不同语言和领域的数据库时,可以自动判断检索时机。

    机器翻译质量评估方法、装置及存储介质

    公开(公告)号:CN113919372A

    公开(公告)日:2022-01-11

    申请号:CN202010663296.0

    申请日:2020-07-10

    Applicant: 南京大学

    Abstract: 本公开涉及计算机技术领域,尤其涉及一种机器翻译质量评估方法、装置及存储介质。所述方法:根据预配置的原始平行语料生成伪平行语料,伪平行语料包括多个伪平行语句对,伪平行语句对包括源单语语句和对应的伪目标单语语句,伪目标单语语句的数据分布与真实的机器翻译译文的数据分布的相似程度大于相似阈值;根据伪平行语料对原始质量评估模型进行训练得到目标质量评估模型。本公开实施例通过计算机设备根据预配置的原始平行语料生成伪平行语料,由于伪目标单语语句的数据分布与真实的机器翻译译文的数据分布的相似程度大于相似阈值,因此根据伪平行语料对原始质量评估模型进行训练之后,得到的目标质量评估模型在翻译质量有较大提升。

    通过建模协同关系提高非自回归神经机器翻译质量的方法

    公开(公告)号:CN113095092A

    公开(公告)日:2021-07-09

    申请号:CN202110416255.6

    申请日:2021-04-19

    Applicant: 南京大学

    Abstract: 本发明公开了一种通过建模协同关系提高非自回归神经机器翻译质量的方法,将源端表示结合目标语言序列的长度构造非自回归神经机器翻译模型中解码器的输入,然后结合依存语法树、源端表示、解码器输入得到目标语言序列的协同关系矩阵,最后将目标语言序列的协同关系矩阵集成于非自回归神经机器翻译模型中的解码器。本发明通过依存语法树来建模目标序列中词与词之间的协同关系,在兼顾依赖关系的同时使翻译质量获得了显著的提升。

    一种利用多样化文本特征进行文本分类的方法

    公开(公告)号:CN108664633B

    公开(公告)日:2020-12-04

    申请号:CN201810460235.7

    申请日:2018-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种利用多样化文本特征进行文本分类的方法,包括以下步骤:使用多维度文本表示算法,生成多组不同的文本特征表示,即纵向生成多维度文本特征表示;使用多种不同的文本表示算法,生成多组不同的文本特征表示,即横向生成多维度文本特征表示;将每个样本不同的特征表示向量进行组合,作为样本新的特征向量,进而得到数据集新的特征表示。将本发明对现有的文本表示算法进行了改进,提出了利用更多的维度较低且差异较大的文本表示来挖掘文本不同的内部结构,增强文本表示的能力,可以在极大程度上降低文本特征维度的同时,提升文本分类等任务的效果。

    融合外部数据的基于方面类别的可解释性推荐方法及系统

    公开(公告)号:CN111966888A

    公开(公告)日:2020-11-20

    申请号:CN201910420367.1

    申请日:2019-05-20

    Applicant: 南京大学

    Abstract: 本发明公开了一种融合外部数据的基于方面类别的可解释性推荐方法和系统,该方法包括:S1:利用外部标准标注数据训练方面类别分类器和方面类别的情感极性分类器;S2:利用所述方面类别分类器和情感极性分类器对评论数据进行分类,得到每条评论的方面类别向量[a1,a2,…,an]和对应每个方面的情感向量[p1,p2,…,pn],其中n为方面的数量;S3:将所述方面类别向量与情感向量进行融合,得到待推荐的商品的预测打分和推荐理由。本发明引入了外部数据,提高了aspect和情感极性判断的准确性,使得对于评论的建模更加准确,也更加标准化,并具有更强的可解释性;利用外部标准标注数据的信息辅助监督评论的建模,降低了需要额外标注评论信息的成本。

    一种基于深度对齐矩阵分解模型进行学术论文推荐的方法

    公开(公告)号:CN108763367A

    公开(公告)日:2018-11-06

    申请号:CN201810473752.8

    申请日:2018-05-17

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性多层感知器之间搭建起一个“桥梁”。最后,通过这个“论文信息桥梁”传递信息,轮流训练这两部分感知器。由于通过这种方法,在训练“用户‑论文”部分的感知器时,能借助“论文‑单词”部分的信息;在训练“论文‑单词”部分的感知器时,能借助“用户‑论文”部分的信息。所以,本发明可以同时使用“用户‑论文收藏记录”、“论文内容文本信息”,共同为用户论文推荐做贡献。

    一种计算机中自动生成英文论文标题缩写词的方法

    公开(公告)号:CN107577669A

    公开(公告)日:2018-01-12

    申请号:CN201710831975.2

    申请日:2017-09-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种计算机中自动生成英文论文标题缩写词的方法,包括以下步骤:对描述内容进行分析,得到各个词语的权重,即重要程度;根据各个词的权重,采用beamsearch的方法在整个缩写词空间中搜索候选缩写词,并得到缩写词的初步打分;对缩写词打分进行调整,得到最终的得分,并按从大到小排序。本发明对现有的缩写词生成方法进行改善和提高,能够避免对描述文本各部分平等处理的问题。同时,通过句法分析、语义分析、语言模型等自然语言处理相关技术在一定程度上学习人们在创造缩写词的时候所考虑到的语言学相关知识,使形成缩写词的过程更具有解释性。

    一种自动探索更多参考译文信息的机器翻译优化方法

    公开(公告)号:CN107133223A

    公开(公告)日:2017-09-05

    申请号:CN201710262369.3

    申请日:2017-04-20

    Applicant: 南京大学

    CPC classification number: G06F17/289 G06F17/274 G06N20/00

    Abstract: 本发明公开了一种自动探索更多参考译文信息的机器翻译优化方法,利用图扩展参考译文的信息,对机器翻译得到的译文进行更充分的评价,同时在利用译文信息扩展的评价方法参与训练过程时,帮助系统更好的进行参数学习。主要步骤如下:利用GIZA++获取源端到目标端的词对齐信息,根据词对齐信息将参考译文切分成短语块,利用源端词序对每一个参考译文构建子图,将若干个子图合并,最终可将并列的若干个参考译文表示成一个参考译文图,将不同的参考译文联系起来,获得更多的信息,最终利用源语言将待评价译文和参考译文图之间联系起来,从图中选出一条与待评价译文最接近的路径进行最终的译文质量评价。

    一种基于状态转移与神经网络的汉语组块分析方法

    公开(公告)号:CN106021227A

    公开(公告)日:2016-10-12

    申请号:CN201610324281.5

    申请日:2016-05-16

    Applicant: 南京大学

    CPC classification number: G06F17/271 G06F17/2775

    Abstract: 本发明提出了一种基于状态转移与神经网络的汉语组块分析方法,包括:将组块分析任务转换成序列化标注任务,使用基于状态转移的框架对句子进行标注,在标注的过程中使用前向神经网络来对每个状态将要进行的转移操作进行打分,并将利用双向长短记忆神经网络模型学习到的词以及词性标注的分布式表示特征作为标注模型的附加信息特征,从而提高组块分析的精确度。对比其它汉语组块分析技术,该汉语组块分析方法使用的基于状态转移的框架可以更灵活地添加组块级别的特征,同时神经网络的使用可以自动学到特征之间的组合方式,双向长短记忆神经网络模型的利用引入了有用的附加信息特征,三者的结合有效提高了组块分析的准确度。

    一种计算机中限定翻译片段的交互式翻译方法

    公开(公告)号:CN104899193A

    公开(公告)日:2015-09-09

    申请号:CN201510330285.X

    申请日:2015-06-15

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中限定翻译片段的交互式翻译方法,包括:用户输入需要翻译的句子,由系统给出原始翻译结果,当用户对系统给出的翻译结果的顺序有不同意见,通过点击操作对源语言片段进行限制,使得其作为一个完整的整体,系统根据重新翻译,避免系统翻译中存在的某些整体被作为多个子部分而分别翻译时,与其他部分发生的调序错误。对比现有的简单的网页翻译系统,本方法突出在不需要用户提供正确翻译结果的情况下,仅提供翻译片段切分信息,即可以让系统利用用户提供的信息进行重新解码,针对调序问题进行限制;对比已有的交互式翻译系统,本方法提供了更有效的交互信息及交互方式,在实际实验情况下可提高翻译质量。

Patent Agency Ranking