-
公开(公告)号:CN111985251B
公开(公告)日:2023-11-07
申请号:CN201910422427.3
申请日:2019-05-21
Applicant: 南京大学
IPC: G06F40/51 , G06N3/0464 , G06N3/08
Abstract: 本公开涉及一种翻译质量测评方法及装置,所述方法包括:接收待测评的目标语言语句和对应的源语言语句;获取所述源语言语句的特征信息和所述目标语言语句的特征信息;对所述源语言语句的特征信息和所述目标语言语句的特征信息进行处理,得到测评信息。利用本公开各实施例,可以提高翻译质量测评结果的可靠性。
-
公开(公告)号:CN116306690A
公开(公告)日:2023-06-23
申请号:CN202310313254.8
申请日:2023-03-28
Applicant: 南京大学
IPC: G06F40/51 , G06F40/189 , G06N3/045
Abstract: 本发明公开了机器翻译质量评估方法、装置、设备及存储介质,其中方法包括获取所评估语言对的双语平行语料,其中双语平行语料包括源语句和目标语句;基于获取的双语平行语料生成有对比性质的伪数据,伪数据包括一个与源语句部分词汇不同的伪源语句、伪源语句的翻译句标签;使用伪数据对预置的质量评估模型进行对比预训练;调用对比预训练后的质量评估模型对译文进行质量评分。增大机器翻译质量评估模型对源端的依赖,提高鲁棒性。
-
公开(公告)号:CN116303899A
公开(公告)日:2023-06-23
申请号:CN202310245824.4
申请日:2023-03-13
Applicant: 南京大学
IPC: G06F16/33 , G06F16/338 , G06F40/289 , G06F40/284 , G06F40/216 , G06N3/0455 , G06N3/048 , G06N3/084
Abstract: 本发明公开了一种复述生成方法、装置、设备及存储介质,方法包括获取第一复述生成语料并分词处理,将得到的输入词序列X_1和标签词序列Y_1作为预训练数据集来训练神经网络模型M;获取并通过第二复述生成语料和神经网络模型M构建知识库,使包含第一复述生成语料和具有时效性的增量复述生成语料的第二复述生成语料中蕴含的复述生成知识以键值对的形式存在于知识库中,将获取第三复述生成语料分词处理得到的输入词序列X_3输入神经网络模型M进行预测,得到神经网络预测结果和查询向量;使用查询向量检索知识库,得到检索结果;融合神经网络预测结果和检索结果,生成最终的复述文本。知识库使复述系统有效迭代更新,并生成有决策依据的复述文本。
-
公开(公告)号:CN116244436A
公开(公告)日:2023-06-09
申请号:CN202310177676.7
申请日:2023-02-24
Applicant: 南京大学
Abstract: 本发明提出了一种基于环结构网格标记的隐式情感三元组抽取方法,包括:构建人工标注的情感三元组数据集,包含待抽取的文本以及情感三元组信息;划分训练集、验证集和测试集;使用基于环的网格标签标注方法,结合情感三元组信息对文本进行网格标签标注,得到实体标签和网格标签;对环结构网格标记模型进行训练;验证评估模型,预测出实体标签与网格标签,并抽取对应的情感三元组;重复上述两个步骤直至模型收敛,保留验证集中最优模型作为最终模型,使用最终模型进行测试集上的F1分数评估;利用最终模型,对网络上的真实文本数据进行隐式情感三元组抽取。
-
公开(公告)号:CN116204622A
公开(公告)日:2023-06-02
申请号:CN202310157691.5
申请日:2023-02-23
Applicant: 南京大学
IPC: G06F16/332 , G06F16/33 , G06F16/335
Abstract: 本发明提出了一种跨语言稠密检索中的查询表示增强方法,包括:从跨语言检索系统的搜索日志中,收集用户输入的源语言查询以及对应的查询结果即目标语言候选文档中用户点击的目标语言文档,构建有标注的数据;检索出与用户输入的源语言查询相似度分数最高的前K个查询,将检索出的前K个查询分别对应的K个相关文档作为反馈文档;训练跨语言稠密检索模型,并根据K个反馈文档和用户输入的源语言查询获得稠密表示向量并进行融合,得到增强后的源语言查询表示;计算得到查询与文档的相似度;对目标语言候选文档进行排序,输出排序后的结果作为最终的检索结果。
-
公开(公告)号:CN114896992A
公开(公告)日:2022-08-12
申请号:CN202210460184.4
申请日:2022-04-28
Applicant: 南京大学
Abstract: 本发明公开了一种利用检索提升机器翻译质量自动评估的方法、介质及设备,方法包括:检索阶段:对于机器翻译质量评估句对,为所述机器翻译质量评估句对中的待评估词在数据库中检索出相关的平行句对;机器翻译质量评估阶段:将检索到的平行句对进行编码后,融入到机器翻译质量评估模型中。本发明能够直接有效地利用相关的平行句对,同时也缓解了机器翻译质量评估训练数据稀疏的问题;更好地解释了模型做出相关决策的原因;无需重新训练模型;避免了端到端模型在训练过程中遗忘训练数据的缺陷,提升了机器翻译质量评估模型的性能。
-
公开(公告)号:CN114707504A
公开(公告)日:2022-07-05
申请号:CN202210208405.9
申请日:2022-03-04
Applicant: 南京大学
IPC: G06F40/289 , G06F16/28 , G06F16/36 , G06F40/216 , G06F40/30
Abstract: 本发明提供了一种快速构建重叠关系抽取文本数据的方法,包括:步骤1,构建领域词典;步骤2,获得文本;步骤3,分句并组装数据;步骤4,将锚文本加入候选实体集;步骤5,提取文本中的非锚文本实体,同时调整样本的数据分布;步骤6,查询实体在维基知识图谱中的实体编号,所述编号作为实体的唯一标识;步骤7,查询实体之间的关系,并用所述关系对分句进行关系标注。本发明重新精确定义了重叠关系数据的类型,提供了一个可以进行研究的数据集,为重叠关系研究做好了数据铺垫。
-
公开(公告)号:CN111310485B
公开(公告)日:2022-06-21
申请号:CN202010172133.2
申请日:2020-03-12
Applicant: 南京大学
IPC: G06F40/58 , G06F40/211 , G06F40/242
Abstract: 本公开涉及机器翻译领域,尤其涉及一种机器翻译方法、装置及存储介质。所述方法包括:根据待翻译的源端文本序列,调用编码器进行编码得到编码向量;根据编码向量,调用解码器进行解码得到中间结果;根据中间结果,通过总结层采用单头注意力得到当前时刻的词语对应的翻译概率分布,翻译概率分布用于指示多个候选词各自对应的选取概率;根据源端文本序列中各个词语的翻译概率分布,生成源端文本序列对应的目标译文。本公开实施例通过在包括编码器和解码器的机器翻译模型中增加一层总结层的方式,避免了相关技术中使用对多头注意力做剪枝、得到的注意力作为拷贝的注意力的情况,在保证解码速度的同时,提高了机器翻译模型的翻译质量。
-
公开(公告)号:CN111444328A
公开(公告)日:2020-07-24
申请号:CN202010371946.4
申请日:2020-05-06
Applicant: 南京大学
IPC: G06F16/332 , G06F16/33 , G06F40/289 , G06F40/30 , G06F40/211
Abstract: 本发明提供了一种带有解释生成的自然语言自动预测推断方法,包括如下步骤:步骤1,训练一个变分解释生成模型;步骤2,训练一个基于解释的逻辑关系预测模型;步骤3,通过所述的变分解释生产模型对自然语言推断进行解释生成,通过生成的解释进行逻辑关系预测。
-
公开(公告)号:CN108763367B
公开(公告)日:2020-07-10
申请号:CN201810473752.8
申请日:2018-05-17
Applicant: 南京大学
IPC: G06F16/9536 , G06F40/30
Abstract: 本发明公开了一种基于深度对齐矩阵分解模型进行学术论文推荐的方法,包括:分别通过两个非线性多层感知器,将用户和论文以及论文和单词映射到相同维度的低维特征空间;通过最大化同一篇论文的两种低维表示向量之间的相似度,在两个非线性多层感知器之间搭建起一个“桥梁”。最后,通过这个“论文信息桥梁”传递信息,轮流训练这两部分感知器。由于通过这种方法,在训练“用户‑论文”部分的感知器时,能借助“论文‑单词”部分的信息;在训练“论文‑单词”部分的感知器时,能借助“用户‑论文”部分的信息。所以,本发明可以同时使用“用户‑论文收藏记录”、“论文内容文本信息”,共同为用户论文推荐做贡献。
-
-
-
-
-
-
-
-
-