一种基于弱化语法错误特征表示的中文语法错误更正方法

    公开(公告)号:CN111767718B

    公开(公告)日:2021-12-07

    申请号:CN202010636770.0

    申请日:2020-07-03

    Abstract: 本发明提供了一种基于弱化语法错误特征表示的中文语法错误更正方法,在用于中文语法错误更正任务的Transformer神经网络的基础上,通过编码器所提取得到字符特征表示和上下文特征表示,为待纠错文本中每一个字符学习得到一个弱化因子。弱化因子能够通过联合方程将编码器提取得到的字符特征表示和上下文特征表示联合,使得编码器所提取得到的待纠错文本的特征表示中,语法错误的特征信息得到抑制,从而弱化了语法错误特征信息对中文语法错误更正模型的负面影响,提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。

    建模对话轮次信息的检索式闲聊对话打分方法

    公开(公告)号:CN110309287B

    公开(公告)日:2021-07-06

    申请号:CN201910612036.8

    申请日:2019-07-08

    Abstract: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统,在开放领域的检索式对话中,传统的模型分为表示层,匹配层,集成层,预测层中,最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制,使得在训练模型时,注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容,对重要信息赋予较大权重,次要信息或干扰信息赋予较小权重,实现更好的回复匹配,加快训练速度,提高模型效率。

    一种基于图注意力机制的对话历史建模方法

    公开(公告)号:CN112256857A

    公开(公告)日:2021-01-22

    申请号:CN202011286773.2

    申请日:2020-11-17

    Inventor: 孙忆南 李思

    Abstract: 本发明公开了一种基于图注意力机制的对话历史建模方法,属于自然语言处理领域。该方法的基本思想是通过注意力机制对对话历史信息进行筛选。该方法的步骤包括:对对话历史,知识图谱和当前用户输入进行编码;基于用户输入计算知识图谱节点的注意力权重,结合节点表示向量加权求和获得知识表示向量;基于知识表示向量和用户输入表示向量计算对话历史中每轮对话的注意力权重,结合对话历史中的每轮对话的表示向量获得对话历史表示向量。利用本发明实施例,能够针对不同的用户输入结合知识图谱自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量,从而能够提升下游对话生成模型的效果,具有很大的实用价值。

    一种基于图注意力机制的对话历史建模方法

    公开(公告)号:CN112256857B

    公开(公告)日:2023-02-03

    申请号:CN202011286773.2

    申请日:2020-11-17

    Inventor: 孙忆南 李思

    Abstract: 本发明公开了一种基于图注意力机制的对话历史建模方法,属于自然语言处理领域。该方法的基本思想是通过注意力机制对对话历史信息进行筛选。该方法的步骤包括:对对话历史,知识图谱和当前用户输入进行编码;基于用户输入计算知识图谱节点的注意力权重,结合节点表示向量加权求和获得知识表示向量;基于知识表示向量和用户输入表示向量计算对话历史中每轮对话的注意力权重,结合对话历史中的每轮对话的表示向量获得对话历史表示向量。利用本发明实施例,能够针对不同的用户输入结合知识图谱自适应的生成与当前轮对话信息最相关的对话历史表示向量。即获得噪声更少的对话历史表示向量,从而能够提升下游对话生成模型的效果,具有很大的实用价值。

    一种基于序列生成对抗网络的中文命名实体识别数据增强算法

    公开(公告)号:CN111738007B

    公开(公告)日:2021-04-13

    申请号:CN202010635292.1

    申请日:2020-07-03

    Abstract: 本发明提供了一种通过融合源领域和目标域中句子的语义差异和标签差异,来选择源领域数据中的正样本数据来扩展目标域的训练数据,达到增强目标域的命名实体识别性能的方法。在以往的Bi‑LSTM+CRF模型的基础上,为了融合源领域和目标域中句子的语义差异和标签差异,我们通过强化学习中的状态表示和奖励设置来引入语义差异和标签差异,使得训练的决策网络可以选择源领域的数据中对于目标域的命名实体识别的性能有正向影响的句子,扩展目标域的训练数据,解决目标域训练数据不足的问题,同时提升目标域的命名实体识别性能。

    一种基于元学习的个性化对话改写方法

    公开(公告)号:CN112487169A

    公开(公告)日:2021-03-12

    申请号:CN202011457909.1

    申请日:2020-12-11

    Inventor: 孙忆南 李思

    Abstract: 本发明公开了一种基于元学习的个性化对话改写方法,属于自然语言处理领域。该方法的基本思想是通过元学习减轻个性化对话改写中的过拟合问题。该方法的步骤包括:基于不同用户画像数据构建多个相关的个性化对话改写任务,通过元学习在相关任务上进行联合训练,获得对新任务敏感的模型参数。当面向新任务时,使用此参数初始化的模型进行训练从而获得面向新任务的个性化对话改写模型。利用本发明实施例,可以使模型具有快速学习此类相关任务的能力。当模型用在新的任务数据上时,不需要从头学习,而是基于现有的快速学习此类任务的能力在新任务上快速拟合,减弱过拟合问题,从而提升个性化对话改写的效果,具有很大的实用价值。

    一种基于领域特征词法组合的文本模板生成方法

    公开(公告)号:CN110362803B

    公开(公告)日:2020-12-18

    申请号:CN201910658510.0

    申请日:2019-07-19

    Abstract: 本发明公开了一种基于领域特征词法组合的文本模板生成方法,属于自然语言处理领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。该方法的步骤包括:对原始文本进行分词、词性标注等预处理,建立领域特征词典;结合特征词典和正则表达式集合,对任意一条文本生成基于领域特征的标记序列;使用基于标记序列的无监督模板生成算法自动生成文本的模板。利用本发明实施例,能够将人工从底层面向大量重复的样本进行规律提取提升到了高层,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可迁移性,具有很大的实用价值。

    一种基于领域特征词法组合的文本模板生成方法

    公开(公告)号:CN110362803A

    公开(公告)日:2019-10-22

    申请号:CN201910658510.0

    申请日:2019-07-19

    Abstract: 本发明公开了一种基于领域特征词法组合的文本模板生成方法,属于自然语言处理领域。该方法的基本思想是通过无监督方法构造领域特征词典进行文本标注,再基于标注进行模板生成。该方法的步骤包括:对原始文本进行分词、词性标注等预处理,建立领域特征词典;结合特征词典和正则表达式集合,对任意一条文本生成基于领域特征的标记序列;使用基于标记序列的无监督模板生成算法自动生成文本的模板。利用本发明实施例,能够将人工从底层面向大量重复的样本进行规律提取提升到了高层,程序直接进行无监督的特征提取再由人工对提取的特征进行去噪,无需逐条样本分析再进行特征抽象和制定规则库。同时使程序具有良好的可迁移性,具有很大的实用价值。

    建模对话轮次信息的检索式闲聊对话打分方法

    公开(公告)号:CN110309287A

    公开(公告)日:2019-10-08

    申请号:CN201910612036.8

    申请日:2019-07-08

    Abstract: 本发明提供了一种引入对话历史信息的局部注意力机制的检索式对话系统,在开放领域的检索式对话中,传统的模型分为表示层,匹配层,集成层,预测层中,最后从候选集中选出和对话最匹配的候选回复。将表示层划分成单句表示和句间关系两部分进行分别建模。在建模对话的轮次信息时使用局部注意力机制,使得在训练模型时,注意力机制能够获得对于匹配任务更有帮助的轮次信息。局部注意力机制也能够提高模型对整个对话中不同位置内容的关注能力。针对对话中的每部分内容,对重要信息赋予较大权重,次要信息或干扰信息赋予较小权重,实现更好的回复匹配,加快训练速度,提高模型效率。

Patent Agency Ranking