一种自动生成小说文本情感曲线并预测推荐的方法

    公开(公告)号:CN107193969B

    公开(公告)日:2020-06-02

    申请号:CN201710377512.3

    申请日:2017-05-25

    Applicant: 南京大学

    Abstract: 本发明公开了一种自动生成小说文本情感曲线并预测推荐的方法,本发明的方法生成的情感曲线能更准确的反映文本情感变化状况;本发明开创性地利用小说文本的情感曲线之间的关系对小说的统计量进行预测,提供的下载量预测也具有更高的正相关性;本发明对有关小说文本的推荐也为相关推荐任务提供了一个全新的角度。主要步骤如下:对小说文本语料进行预处理后得到小说的单词列表,通过文本窗口依次算出情感分数汇聚成情感曲线;通过情感曲线计算出文本两两之间的动态时间规整距离矩阵;对动态时间规整距离矩阵使用改进的高斯过程给出下载量预测;按照动态时间规整距离大小给出相关的文本推荐。

    一种基于词预测的神经机器翻译方法

    公开(公告)号:CN107391501A

    公开(公告)日:2017-11-24

    申请号:CN201710812778.6

    申请日:2017-09-11

    Applicant: 南京大学

    Abstract: 本发明公开了一种基于词预测的神经机器翻译方法,包括:在基于注意力机制的端到端神经机器翻译系统的训练过程中加入词预测机制。其分为两个方面,一是对源端即编码端加入词预测机制,二是在目标端即解码端加入词预测机制。对比现有的神经机器翻译系统,本方法可以充分利用到词的信息,在训练时强化源端以及目标端的能力,从而提高机器翻译系统的翻译质量,并且在翻译时,通过编码端词预测机制对翻译所需词表进行压缩,可以大大提高翻译的效率。在实际实验情况下,翻译质量和翻译效率都得到了大幅度的提升。

    一种计算机中采用剪枝方法改进的神经网络

    公开(公告)号:CN106779075A

    公开(公告)日:2017-05-31

    申请号:CN201710083101.3

    申请日:2017-02-16

    Applicant: 南京大学

    CPC classification number: G06N3/082

    Abstract: 本发明公开了一种计算机中采用剪枝方法改进的神经网络,包括:对于预训练完毕的神经网络,从网络参数中构造出若干项集,根据项集的重要性,利用改进的近似Apriori算法进行频繁项集挖掘得出重要项集的集合,由得到的项集构造出剪枝后的神经网络,最后对剪枝后的神经网络重新训练得到最终的结果。

    一种计算机中文文本分类方法

    公开(公告)号:CN103020167A

    公开(公告)日:2013-04-03

    申请号:CN201210489136.4

    申请日:2012-11-26

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中文文本分类方法,包括以下步骤:使用N-gram方法处理中文文本:使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1-正则化逻辑回归分类器模型为中文文本分类。本发明对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N-gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题,从而提高文本分类的精度。

    一种计算机中译英翻译中基于分词网的词对齐融合方法

    公开(公告)号:CN102193915B

    公开(公告)日:2012-11-28

    申请号:CN201110148692.0

    申请日:2011-06-03

    Applicant: 南京大学

    Abstract: 本发明提出了一种计算机中译英翻译中基于分词网的汉英词对齐融合方法,包括以下步骤:步骤一,确定骨架对齐:用基于连接置信度的连接选择算法搜索选择最优的骨架连接,形成骨架对齐;步骤二,将选出骨架对齐投影到各个分词上,得到基于各种分词的词对齐。本发明对现有的基于单一分词的词对齐算法进行改善和提高,能同时提高了各个分词的词对齐质量和机器翻译质量。通过将多种分词下用于词对齐的特征融合起来,让最终的词对齐更加健壮,可以降低受分词错误或者双语分词不一致影响的词对齐错误数量。

    一种学习文本中事实性知识的模型训练方法

    公开(公告)号:CN118313380A

    公开(公告)日:2024-07-09

    申请号:CN202410418238.X

    申请日:2024-04-09

    Applicant: 南京大学

    Abstract: 本发明公开了一种学习文本中事实性知识的模型训练方法,包括以下步骤:步骤1,根据先验知识从原始训练文本语料数据中选择高置信度的文本信源集合,获得可靠信源文本;步骤2,抽取可靠信源文本中的事实性知识,生成文本支持数据;步骤3,结合文本支持数据和原始训练文本语料数据训练生成式语言模型。该方法能够在文本语料训练过程中提升模型对可靠文本信源的学习效率和学习效果,减少为训练文本语料进行训练排序的人工成本,减少设计持续学习方案所需的人工成本;能够在训练过程中为语言模型注入更多可靠的事实性知识,不局限知识的表述方式,提升生成式语言模型的可靠性。

    一种缩减机器翻译数据库规模的方法、存储介质及电子设备

    公开(公告)号:CN114970570A

    公开(公告)日:2022-08-30

    申请号:CN202210566109.6

    申请日:2022-05-23

    Applicant: 南京大学

    Abstract: 本发明公开了一种缩减机器翻译数据库规模的方法、存储介质及电子设备,所述方法包括以下步骤:构建数据库,通过对数据库中各条目的掌握情况,将所有的条目进行分类;根据局部空间内条目的分布状况,为不同的条目确定知识边界值;分析各条目的种类和对应的知识边界值,将符合条件的条目添加到候选集合中;从候选集合里按照预先设定的比例随机丢弃一定条目,得到最终缩减后的数据库。本发明从通用领域NMT能力的角度出发,基于局部准确性丢弃数据库中的条目,在尽可能缩减数据库规模的同时,也保证了缩减后数据库的质量,可解释性更强;缩减后的数据库可以放入任何kNN‑MT框架中使用,可以对不同语言,不同领域的数据库进行规模缩减。

    一种用于小样本意图识别的文本数据优化方法

    公开(公告)号:CN114564569A

    公开(公告)日:2022-05-31

    申请号:CN202210198697.2

    申请日:2022-03-02

    Applicant: 南京大学

    Abstract: 本发明提供了一种用于小样本意图识别的文本数据优化方法,包括以下步骤:步骤1,构建训练文本数据集;步骤2,对训练任务按照具有的意图数阶梯式地划分级别;步骤3,采样一个批次的小样本意图识别训练样本;步骤4,在基于度量学习的元学习模型上使用采样出的同一批次的两个以上的任务做并行训练;步骤5,判断训练是否终止;步骤6,结束模型训练。本发明可以将并行化训练元学习模型应用在现实场景中小样本意图识别的训练任务意图数不一致的情况。

    一种基于变分自编码器隐变量操纵的受控文本生成方法

    公开(公告)号:CN114492332A

    公开(公告)日:2022-05-13

    申请号:CN202210101812.X

    申请日:2022-01-27

    Applicant: 南京大学

    Abstract: 本发明涉及一种基于变分自编码器隐变量操纵的受控文本生成方法,包括:训练一个用于文本生成的变分自编码器;计算变分自编码器的隐变量与生成文本的属性之间的关联;通过操纵变分自编码器的隐变量生成具有指定属性的文本。本发明提供的受控文本生成方法可以只使用一个训练好的变分自编码器模型控制生成文本的多种不同属性,并且可以使用具有不同属性的文本共同提升生成文本的质量。

Patent Agency Ranking