文本分析方法、装置、设备、存储介质及程序产品

    公开(公告)号:CN117009507A

    公开(公告)日:2023-11-07

    申请号:CN202211335833.4

    申请日:2022-10-28

    Inventor: 于昊飞 闭玮

    Abstract: 本申请公开了一种文本分析方法、装置、设备、存储介质及程序产品,涉及语言处理技术领域。该方法包括:对目标文本中的多个文本词汇进行特征提取得到词汇特征;基于预设的聚类中心,对多个词汇特征中的至少一个词汇特征进行特征聚类,并确定聚类中心对应的词汇特征集合;基于词汇特征集合内词汇特征的分布情况对聚类中心进行迭代更新,得到更新后的聚类中心;将更新后的聚类中心对应的特征表示进行特征融合得到目标文本特征。从而能够通过聚类过程和聚类中心的迭代更新过程,逐渐将相似的词汇特征聚类至一起,使得所聚类到的更新后的聚类中心能够较好地表达多个词汇特征的含义。本申请可应用于云技术、人工智能、智慧交通等各种场景。

    基于表格的文本生成方法及相关装置

    公开(公告)号:CN111581929B

    公开(公告)日:2022-09-27

    申请号:CN202010322737.0

    申请日:2020-04-22

    Abstract: 本申请涉及人工智能技术领域,尤其涉及一种基于表格的文本生成方法及相关装置。该方法包括:获取所述表格中的三元组,所述三元组包括:行名、列名、所述行名和所述列名对应的数值信息;对所述三元组进行特征提取,得到所述三元组的特征表达,所述特征表达中至少包含所述三元组的上下文信息以及所述三元组的数值信息与其他三元组的数值信息的大小关系;由所述表格的多个三元组的特征表达构成特征表达集合,并对所述特征表达集合进行筛选,得到所述表格中的目标信息序列;根据所述目标信息序列构建所述表格的文本表达。通过本申请提供的方法,提高了基于表格生成的文本表达的准确性以及增强了对于表格中各数值信息间的理解能力。

    基于多模态的文本生成方法、模型训练方法和装置

    公开(公告)号:CN114298121A

    公开(公告)日:2022-04-08

    申请号:CN202111177650.X

    申请日:2021-10-09

    Abstract: 本申请提供了一种基于多模态的文本生成方法、模型训练方法和装置,涉及人工智能技术领域,方法包括:获取混合样本数据集;混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料;分别基于携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料,对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练,得到目标预训练模型。基于上述技术方案能够有效提高预训练模型的模型效果,以及后续的模型正式训练效果,进而提高生成文本与输入信息的匹配性。

    基于人工智能的人机对话方法、模型训练方法及装置

    公开(公告)号:CN111309883A

    公开(公告)日:2020-06-19

    申请号:CN202010091322.7

    申请日:2020-02-13

    Inventor: 闭玮 杜嘉晨

    Abstract: 本申请实施例公开了一种基于人工智能的人机对话方法、模型训练方法及装置,属于自然语言处理领域。该方法包括:获取历史对话信息和知识文本信息;通过对话生成模型,对历史对话信息和知识文本信息进行编码处理,得到第一语义特征和第二语义特征;将第一语义特征和第二语义特征进行融合处理,得到第三语义特征;对第三语义特征进行解码处理,得到对话回复信息。由于不仅考虑历史对话信息,还考虑与历史对话信息关联的知识文本信息,因此增加了生成对话回复信息时参考的信息量,从而提高生成对话回复信息的准确率,以及对话回复信息的多样性。并且,根据该第三语义特征生成的对话回复信息会更加流畅,进一步提高生成对话回复信息的准确率。

    解释文本生成模型训练方法、解释文本生成方法及其装置

    公开(公告)号:CN117009471A

    公开(公告)日:2023-11-07

    申请号:CN202211187946.4

    申请日:2022-09-26

    Inventor: 李沁桐 闭玮

    Abstract: 本公开的实施例提供了一种解释文本生成模型训练方法、解释文本生成方法、装置、设备和计算机可读存储介质。本公开的实施例所提供的方法通过对基于数据样例生成的候选解释文本进行进一步优化,同时优化基于信息压缩和信息相关的信息瓶颈目标以及语言建模目标,来从候选解释文本中提炼出与数据样例相关的信息并忽略掉与数据样例不相关的信息,以生成的方式训练模型参数,从而确定能够生成更高质量的解释文本的解释文本生成模型。通过本公开的实施例的方法能够同时优化和完成解释文本去冗余无关信息和保留数据样本相关信息的任务,并且能够在无需任何高质量的解释文本标注的情况下根据解释文本的特性无标注无监督地得到更高质量的解释文本。

    模型训练方法、对话生成方法、装置、设备及介质

    公开(公告)号:CN110188182B

    公开(公告)日:2023-10-27

    申请号:CN201910470526.9

    申请日:2019-05-31

    Abstract: 本申请公开一种对话生成模型训练方法,包括:获取对话数据集,所述对话数据集中的对话数据包括问句和所述问句对应的标注回复;基于所述对话数据集中的所述问句,通过构建的对话生成模型中的编码器获得所述问句的编码表示,通过所述对话生成模型中的解码器融合所述问句的编码表示和针对所述问句从知识库问答模型中迁移学习的知识信息,获得所述对话生成模型输出的所述问句对应的预测回复;基于所述问句对应的预测回复和标注回复确定损失函数,通过损失函数调整所述对话生成模型的参数直到所述对话生成模型的损失函数处于收敛。该方法使得模型能够更好融合知识信息,从而提高对话生成准确性和合理性。本申请还公开对话生成方法、装置、设备及介质。

    对话生成模型的确定方法及装置、存储介质、电子设备

    公开(公告)号:CN110275939B

    公开(公告)日:2023-01-17

    申请号:CN201910498269.X

    申请日:2019-06-10

    Abstract: 本公开提供一种对话生成模型的确定方法及装置、存储介质、电子设备;涉及人工智能技术领域。所述对话生成模型的确定方法包括:获取多组训练样本,每组所述训练样本包括第一输入信息和目标回复信息;基于所述第一输入信息和所述目标回复信息,根据词库确定第一目标词语,并根据所述第一目标词语确定第一隐变量;基于所述第一隐变量训练所述对话生成模型;其中,所述词库为对话文本的词集合。本公开提供的技术方案有利于提高对话生成模型生成回复的多样性,进而能够准确对用户提出的问题进行有效答复,提升用户对话体验。

    一种问答模型训练方法、问题语句处理方法、装置及存储介质

    公开(公告)号:CN110222164B

    公开(公告)日:2022-11-29

    申请号:CN201910512122.1

    申请日:2019-06-13

    Abstract: 本发明提供了一种问答模型训练方法,包括:通过问答模型的隐变量生成网络,确定与问题语句所对应的词语级的隐变量;通过问答模型的答复语句生成网络对词语级的隐变量进行解码处理,生成与词语级的隐变量相同数量的答复词语;根据与词语级的隐变量相同数量的答复词语,生成与词语级的隐变量相对应的答复语句;通过所生成的答复语句所对应的精确率和召回率的调和平均数,更新隐变量生成网络的参数;通过损失值最小的答复语句的正确数据标注,更新答复语句生成网络的参数。本发明还提供了问题语句处理方法、装置及存储介质。本发明能够使得训练得到的问答模型所生成的回复更加具有针对性,从而可以提升回复的丰富度和前瞻性,提升用户的使用体验。

    自然语言表示方法、装置、设备及存储介质

    公开(公告)号:CN110245353B

    公开(公告)日:2022-10-28

    申请号:CN201910538534.2

    申请日:2019-06-20

    Inventor: 李江彤 闭玮

    Abstract: 本申请公开了一种自然语言表示方法、装置、设备及存储介质。方法包括:获取多个目标单词,目标单词从用于训练的多个目标语句中获取;对每一个目标单词进行切分,得到多个子词;将每一个子词映射到对应的初始目标向量;对每一个初始目标向量进行不同核维度的卷积操作,得到多个卷积结果;将得到的多个卷积结果进行拼接,得到对应的子词的目标向量;根据得到的每一个子词的目标向量,确定对应的目标单词的向量表示;根据得到目标单词的向量表示的方法,得到目标单词所在的目标语句的所有目标单词的向量表示;将得到的每一个目标语句的所有目标单词的向量表示作为自然语言的预训练模型的输入,用于构建自然语言的预训练模型。提高模型的迁移效果。

    基于人工智能的文本处理方法、装置及电子设备

    公开(公告)号:CN111858898A

    公开(公告)日:2020-10-30

    申请号:CN202010753509.9

    申请日:2020-07-30

    Abstract: 本申请提供了一种基于人工智能的文本处理方法、装置、电子设备及计算机可读存储介质;方法包括:对文本中属于同一句子的多个词语进行特征提取处理,得到多个词语的特征表示,以作为句子的句子级信息;对文本中的多个句子进行特征提取处理,得到多个句子的特征表示,以作为文本级信息;从知识库中获取文本中属于同一句子的多个词语的设定特征表示,以作为句子的设定信息;针对文本中的每个词语,根据词语所在句子的句子级信息、文本级信息、以及词语所在句子的设定信息,更新词语的特征表示,并根据词语的更新后的特征表示进行类型预测处理,得到词语的预测类型。通过本申请,能够提升得到的预测类型的精度,进而能够提升问答服务的智能化程度。

Patent Agency Ranking