-
公开(公告)号:CN115827884B
公开(公告)日:2024-08-23
申请号:CN202210903474.1
申请日:2022-07-27
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/36 , G06F40/211 , G06F40/284
Abstract: 本申请实施例公开了一种文本处理方法、装置、电子设备、介质及程序产品,应用于自然语言处理技术领域。其中方法包括:获取文本句集合,并基于分割字符对文本句集合中的文本句进行分割,得到多个子文本句,根据多个子文本句确定至少一个第一关系元组,根据多个子文本句确定至少一个第二关系元组,根据至少一个第一关系元组和至少一个第二关系元组构建文本句集合对应的关系知识图谱。采用本申请实施例,可以较为全面地获取到文本句中具有指定关系的分词组合,以及提高所构建的知识图谱的准确性。
-
公开(公告)号:CN110162770B
公开(公告)日:2023-07-21
申请号:CN201811231345.2
申请日:2018-10-22
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/284 , G06F40/216 , G06F40/30
Abstract: 本申请实施例公开了一种词扩展方法、装置、设备以及介质,其中,该方法包括:获取待扩展的种子词以及该种子词的上下文;根据该种子词以及该种子词的上下文,通过词扩展模型获取输出向量,该输出向量用于表征候选词库中各个候选词与种子词之间的语义相似度;根据输出向量确定种子词的扩展词。该方法中采用的词扩展模型是利用机器学习算法训练得到的神经网络,该模型在预测过程中既考虑了种子词自身的语义,又考虑了种子词的上下文语义,保证确定出的种子词的扩展词能够符合种子词的上下文语境,从而为各个自然语言处理应用提供能够满足业务需求的信息,提高自然语言处理应用的应用性能。
-
公开(公告)号:CN111507087B
公开(公告)日:2022-08-26
申请号:CN202010234637.2
申请日:2018-05-31
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/211 , G06F16/34 , G06F16/35 , G06Q50/00
Abstract: 本申请的实施例提供了一种消息摘要的生成方法和装置。该生成方法包括:从待处理的消息集合中获取具有关联关系的多条消息;对所述多条消息中的每条消息进行功能标签和情感标签的抽样,对所述每条消息中的各个词进行词类别标签和词情感极性标签的抽样;基于对所述每条消息的抽样结果和对所述各个词的抽样结果,确定所述多条消息包含的词类别为主题内容词的分布概率;根据所述主题内容词的分布概率,生成所述多条消息的摘要。本申请实施例的技术方案能够保证得到更加准确的消息摘要,确保消息摘要中能够包含更多的重要内容,提高了确定的消息摘要的质量。
-
公开(公告)号:CN111291576B
公开(公告)日:2022-07-01
申请号:CN202010151758.0
申请日:2020-03-06
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本公开提供了一种神经网络内部表示信息量确定方法、装置、设备、介质。所述神经网络内部表示信息量确定方法包括:利用所述神经网络对输入文本向量进行处理,并提取所述神经网络中的特征处理层生成的内部表示;利用探针解码器对目标文本向量以及所述内部表示进行拟合处理,得到概率值,其中,所述概率值表示由所述内部表示映射成所述目标文本向量的概率;基于所述概率值确定所述内部表示相对于所述目标文本向量的信息量。
-
公开(公告)号:CN114595317A
公开(公告)日:2022-06-07
申请号:CN202210179625.3
申请日:2022-02-25
Applicant: 腾讯科技(深圳)有限公司 , 中国人民大学
IPC: G06F16/332 , G06F40/12 , G06F40/216 , G06F40/35 , G06N3/02 , G06N20/00
Abstract: 本申请公开了一种回复文本的生成方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:获取历史对话文本;基于历史对话文本包含的句子,确定第一隐变量和历史对话文本的状态结构;根据状态结构,确定历史对话文本对应的回复文本的预测状态信息;根据预测状态信息确定第二隐变量;基于第一隐变量和第二隐变量,生成回复文本。本申请中,提高回复文本的回复准确性,提高回复文本的生成效率。
-
公开(公告)号:CN114298121A
公开(公告)日:2022-04-08
申请号:CN202111177650.X
申请日:2021-10-09
Applicant: 腾讯科技(深圳)有限公司
IPC: G06K9/62 , G06F40/166 , G06N3/04 , G06N3/08 , G06V10/764 , G06V10/82 , G06V10/774 , G06V20/70
Abstract: 本申请提供了一种基于多模态的文本生成方法、模型训练方法和装置,涉及人工智能技术领域,方法包括:获取混合样本数据集;混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料;分别基于携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料,对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练,得到目标预训练模型。基于上述技术方案能够有效提高预训练模型的模型效果,以及后续的模型正式训练效果,进而提高生成文本与输入信息的匹配性。
-
公开(公告)号:CN113761945A
公开(公告)日:2021-12-07
申请号:CN202110589881.5
申请日:2021-05-28
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/47 , G06F40/58 , G06F40/279 , G06F40/126 , G06F40/166 , G06N3/04 , G06N3/08 , G06N20/00
Abstract: 本申请提供了一种基于翻译的自动输入方法、装置、设备及计算机可读存储介质;该方法包括:获取源语言文本和源语言文本的初始目标语言文本,初始目标语言文本包括经过确认的上下文文本和用于对上下文文本进行补充的输入字符;将源语言文本和上下文文本输入至训练好的词预测模型,得到预设词表中各个候选词的概率分布信息,词预测模型的训练数据包括无上下文训练数据、前缀上下文训练数据、后缀上下文训练数据和双侧上下文训练数据;基于输入字符和概率分布信息,从多个候选词中确定输入字符对应的目标输入词;在输入字符的位置输出目标输入词。通过本申请,能够丰富翻译输入法的适用场景,提高输入效率。
-
公开(公告)号:CN113033209A
公开(公告)日:2021-06-25
申请号:CN202110569523.8
申请日:2021-05-25
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/295 , G06F40/30 , G06F16/332 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本申请实施例公开了一种文本关系抽取方法、装置、存储介质及计算机设备,其中,该方法包括:获取目标实体对的目标文本和关系集合;通过训练好的关系抽取模型预测出关系集合中每个关系对应的初始得分;根据关系集合中每个关系对应的初始得分,从关系集合中选择出候选关系;将候选关系输入训练好的问答系统模型进行处理,以得到候选关系中每个候选关系对应的问答得分;根据候选关系中每个候选关系对应的初始得分和问答得分进行得分更新,以得到候选关系中每个候选关系对应的第一更新后得分;根据第一更新后得分,预测目标实体对在目标文本中的语义关系。本申请实施例通过问答系统模型来验证关系抽取模型的输出结果,有效提高模型的关系抽取性能。
-
公开(公告)号:CN110008482B
公开(公告)日:2021-03-09
申请号:CN201910308349.4
申请日:2019-04-17
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种文本处理方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取源文本的输入序列;将所述输入序列经过语义编码得到源端向量序列;获取所述源端向量序列中每个词对应的第一权重向量;根据所述源端向量序列和所述每个词对应的第一权重向量,生成所述每个词的目标端向量;根据所述源端向量序列得到目标句子向量;根据所述每个词的目标端向量和所述目标句子向量,确定每个词对应的目标词;根据所述每个词对应的目标词,生成所述源文本对应的目标文本。采用本方案能够利用句子信息对每个词进行翻译,提高翻译的准确率。
-
公开(公告)号:CN111382584A
公开(公告)日:2020-07-07
申请号:CN202010164964.5
申请日:2018-09-04
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/58 , G06F40/30 , G06F40/289 , G06F40/284 , G06F40/126 , G06N3/04 , G06N3/08 , G06N20/00
Abstract: 本申请涉及一种文本翻译方法,包括:获取源文本的词序列;通过机器翻译模型中编码器的多层神经网络,逐层对词序列进行编码,得到融合了各层神经网络的输出的源端融合向量序列;编码器的各层神经网络采用自注意力机制处理方式处理各层神经网络的输入,从而得到各层神经网络的输出,当前层神经网络的输入由前序层神经网络的输出确定;通过机器翻译模型中解码器的多层神经网络,根据机器翻译模型前次输出的目标词,逐层对源端融合向量序列进行解码,得到当次的融合了各层神经网络的输出的目标端融合向量序列;根据当次的目标端融合向量序列,确定当次输出的目标词;根据输出的各目标词生成目标文本。本申请提供的方案可以提高文本翻译质量。
-
-
-
-
-
-
-
-
-