一种基于小样本学习的环评领域命名实体识别技术

    公开(公告)号:CN115270795A

    公开(公告)日:2022-11-01

    申请号:CN202210872873.6

    申请日:2022-07-21

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于小样本学习的环评领域命名实体识别技术,包括:获取环评领域文件中的语料并预处理;对预处理后的语料进行人工标注,得到人工标注样本和未标注样本;人工收集并整理环评领域中的实体,以词表的形式保存到实体库;对实体库进行扩充;建立命名实体识别模型;利用人工标注样本和未标注样本分阶段训练命名实体识别模型;得到训练好的命名实体识别模型;在预测阶段,利用扩充后的实体库修正命名实体识别模型的预测结果。本发明综合利用少量人工标注样本和人工整理的实体库作为监督信号,分阶段逐步扩展伪标签数据,利用混合数据提高模型的泛化能力,以较少的人工标注的数据即可训练出较为高效的NER模型。

    一种对图像描述的结果进行自动评估的方法

    公开(公告)号:CN114912512A

    公开(公告)日:2022-08-16

    申请号:CN202210392208.7

    申请日:2022-04-14

    Applicant: 南京大学

    Abstract: 本发明提供了一种对图像描述的结果进行自动评估的方法,包括:步骤1,分别抽取图像和文本的场景图;步骤2,利用多模态预训练模型CLIP对相关元素进行编码;步骤3,计算得到句子质量评价的最终分数。本发明基于场景图来辅助判断图像和文本之间的一致性,提高了无标注场景下质量评价的可信度;本发明使用CLIP模型对图像、文本、场景图进行编码,不仅确保了语义空间的一致性,大大提高了场景图相似度比较的准确性,还保证了编码能力的可更新性。

    双语词典推断方法、装置及存储介质

    公开(公告)号:CN114021551A

    公开(公告)日:2022-02-08

    申请号:CN202010679242.3

    申请日:2020-07-15

    Applicant: 南京大学

    Abstract: 本公开涉及计算机技术领域,尤其涉及一种双语词典推断方法、装置及存储介质。所述方法包括:从平行语料中提取目标词典;根据提取出的所述目标词典和预配置的初始词典,训练得到目标双语词典推断模型,所述目标双语词典推断模型是具有将源端单词翻译为目标端单词的神经网络模型;其中,所述目标词典和所述初始词典均包括多个对齐词对,所述对齐词对包括源端单词和目标端单词。本公开实施例通过在初始字典的基础上引入平行语料,利用从平行语料中提取的目标词典来丰富目标双语词典推断模型的训练信息,提高了后续的双语词典推断效果。

    语料扩充方法、装置、计算机设备及存储介质

    公开(公告)号:CN113535969A

    公开(公告)日:2021-10-22

    申请号:CN202010313425.3

    申请日:2020-04-20

    Applicant: 南京大学

    Abstract: 本公开涉及计算机技术领域,尤其涉及一种语料扩充方法、装置、计算机设备及存储介质。所述方法包括:获取平行种子集、第一语料库和第二语料库,根据平行种子集、第一语料库和第二语料库,训练选择模型,对于第一语料库中的每个第一文本,通过训练完成的选择模型从第二语料库中确定匹配的第二文本;根据第一语料库中的多个第一文本和各自匹配的第二文本,构成多组伪平行文本对;对多组伪平行文本对进行筛选,将筛选后的多组伪平行文本对添加至平行种子集中。本公开实施例通过使用选择模型学习多个第一文本和多个第二文本之间的映射关系,避免了相关技术中因无法做到内容风格完全解耦而导致的风格转换失败的问题,保证了后续的语料生成效果。

    利用外部信息的神经机器翻译方法

    公开(公告)号:CN108763230B

    公开(公告)日:2020-07-21

    申请号:CN201810581372.6

    申请日:2018-06-07

    Applicant: 南京大学

    Abstract: 本公开涉及利用外部信息的神经机器翻译方法,包括:接收源端源语言的文字序列作为源端输入;接收目标语言的文字序列作为外部信息输入;根据源端输入和外部信息输入,生成源端源语言文字序列的译文作为目标端输出。本公开提供的神经机器翻译方法通过在翻译过程中输入外部信息,为翻译提供了参考,有效提高了神经机器翻译的翻译效率。

    一种混合逐点策略和成对策略的文本排序方法

    公开(公告)号:CN108717434A

    公开(公告)日:2018-10-30

    申请号:CN201810460253.5

    申请日:2018-05-15

    Applicant: 南京大学

    Abstract: 本发明公开了一种混合逐点策略和成对策略的文本排序方法,涉及一种在对句子,句法树等样本排序的过程中更好地利用样本之间的差异信息的排序方法,包括:逐点排序阶段,成对排序阶段。逐点排序阶段对样本进行打分并做第一次排序,并筛选出得分较高的候选,在这些候选基础上,进一步对其进行成对排序阶段,其中成对策略排序采用了一种编码、参照生成、对比、再编码、打分的流程,在参照过程中设计了一种基于跨度的节点加权方法,一种跨度和注意力机制相结合的方法,最后根据样本的基础得分和逐点排序得分,成对排序阶段得分进行综合排序。

    一种计算机中限定翻译片段的交互式翻译方法

    公开(公告)号:CN104899193B

    公开(公告)日:2017-10-17

    申请号:CN201510330285.X

    申请日:2015-06-15

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中限定翻译片段的交互式翻译方法,包括:用户输入需要翻译的句子,由系统给出原始翻译结果,当用户对系统给出的翻译结果的顺序有不同意见,通过点击操作对源语言片段进行限制,使得其作为一个完整的整体,系统根据重新翻译,避免系统翻译中存在的某些整体被作为多个子部分而分别翻译时,与其他部分发生的调序错误。对比现有的简单的网页翻译系统,本方法突出在不需要用户提供正确翻译结果的情况下,仅提供翻译片段切分信息,即可以让系统利用用户提供的信息进行重新解码,针对调序问题进行限制;对比已有的交互式翻译系统,本方法提供了更有效的交互信息及交互方式,在实际实验情况下可提高翻译质量。

    一种自动生成小说文本情感曲线并预测推荐的方法

    公开(公告)号:CN107193969A

    公开(公告)日:2017-09-22

    申请号:CN201710377512.3

    申请日:2017-05-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种自动生成小说文本情感曲线并预测推荐的方法,本发明的方法生成的情感曲线能更准确的反映文本情感变化状况;本发明开创性地利用小说文本的情感曲线之间的关系对小说的统计量进行预测,提供的下载量预测也具有更高的正相关性;本发明对有关小说文本的推荐也为相关推荐任务提供了一个全新的角度。主要步骤如下:对小说文本语料进行预处理后得到小说的单词列表,通过文本窗口依次算出情感分数汇聚成情感曲线;通过情感曲线计算出文本两两之间的动态时间规整距离矩阵;对动态时间规整距离矩阵使用改进的高斯过程给出下载量预测;按照动态时间规整距离大小给出相关的文本推荐。

    基于新型神经网络的自然语言并列结构的自动识别方法

    公开(公告)号:CN105868181A

    公开(公告)日:2016-08-17

    申请号:CN201610250258.6

    申请日:2016-04-21

    Applicant: 南京大学

    CPC classification number: G06F17/271 G06N3/08

    Abstract: 本发明提出了基于新型神经网络的自然语言并列结构的自动识别方法,包括:先对待分析的句子进行句法分析处理,得到一个并列结构的候选集合,然后利用新型的神经网络学习器对候选集合中的并列结构进行打分,从而选出最佳的并列结构作为系统的最终输出。本方法综合考虑了并列结构的短语独立性和短语之间的相似性,提高了并列结构识别精度。对比现有的其他技术,本方法突出在能够自动识别出任意的并列结构,而其他技术只能识别出特定类型的并列结构,如只有名词组成的并列结构。本方法提出了一种更有效的并列结构识别方法,在实际应用中提高了识别质量。

Patent Agency Ranking