-
公开(公告)号:CN113705191A
公开(公告)日:2021-11-26
申请号:CN202110399449.X
申请日:2021-04-14
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F40/194 , G06F40/295 , G06F40/58 , G06F16/33 , G06F16/36 , G06F16/9532 , G06N20/00
摘要: 本申请公开了一种样本语句的生成方法、装置、设备及存储介质,涉及机器学习领域。该方法包括:获取用于进行关系识别的种子语句;将种子语句与语句库进行匹配,得到与种子语句符合第一相似度条件的第一候选语句;对目标实体和属性条件进行语句预测,生成第二候选语句;基于第一候选语句和第二候选语句生成样本语句。样本语句并非采用人工标注方式生成,而是通过提供种子语句,在种子语句的基础上,从语句库中匹配出第一候选语句,并通过自动生成方式生成第二候选语句,从而在第一候选语句和第二候选语句的基础上得到自动生成的样本语句,将样本语句的生成过程自动化,提高了样本语句的生成效率,从而间接提高了关系识别的训练效率和准确率。
-
公开(公告)号:CN113705165A
公开(公告)日:2021-11-26
申请号:CN202110368378.7
申请日:2021-04-06
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F40/126 , G06F40/279 , G06N3/04 , G06N3/08
摘要: 本申请提供了一种错别字词的识别方法、装置、设备、计算机可读存储介质及模型训练方法;其中,错别字词的识别方法包括:获取待识别的语句,以及所述语句中待识别字词的编码特征;利用已训练的语言模型,对所述语句中的待识别字词进行特征提取,得到所述待识别字词在所述语句中的上下文特征;利用已训练的深度神经网络模型,对所述语句中待识别字词的编码特征和上下文特征进行识别,得到表征所述待识别字词是否错误的识别结果。本申请中,能够在进行错别字词识别时,利用语言模型泛化性强的特点以及深度神经网络模型识别准确率高的特性,更好地识别出语句中的错别字词,且不需要人工设定和维护大量的模型融合规则,可以减少人工成本。
-
公开(公告)号:CN113255327B
公开(公告)日:2021-09-28
申请号:CN202110649374.6
申请日:2021-06-10
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F40/216 , G06F40/289 , G06F16/332
摘要: 本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待处理文本对应的至少一个词序列,每一词序列对应于问题文本和一个段落文本;将各词序列输入训练好的文本处理模型,通过训练好的文本处理模型分别提取各词序列中各词的特征向量,并基于特征向量获取各词序列中各词的概率,概率包括对应的词为答案的起始词的第一概率、以及为答案的终止词的第二概率;基于各词序列中各词的第一概率和第二概率,确定出问题文本的答案。该方案文本处理模型既利用了段落文本中各词的特征向量也利用了问题文本中各词的特征向量,且输出的各词的概率具有可比性,保证了最终答案的准确性。
-
公开(公告)号:CN110535938B
公开(公告)日:2021-07-27
申请号:CN201910808351.8
申请日:2019-08-29
申请人: 腾讯科技(深圳)有限公司
摘要: 本申请实施例公开一种基于智能合约的数据处理方法、设备及存储介质,其中,方法包括:接收执行节点发送的针对第一服务器节点的固件更新请求;所述固件更新请求中至少包含:所述第一服务器节点的更新版本参数;根据所述固件更新请求调用智能合约,基于所述智能合约从区块链上获取与所述第一服务器节点相关联的固件版本更新记录和固件版本发布记录;所述固件版本发布记录为所述区块链上的发布节点基于共识机制所确定的;根据所述固件版本更新记录、所述固件版本发布记录、所述更新版本参数,确定所述固件更新请求的合法性。采用本申请,可以在提升固件更新的安全性和可靠性。
-
公开(公告)号:CN109145303A
公开(公告)日:2019-01-04
申请号:CN201811038043.3
申请日:2018-09-06
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F17/27
摘要: 本申请实施例公开了一种命名实体识别方法、装置、设备以及介质,其中,该方法包括:获取待识别的文本;对该待识别的文本进行分词处理得到分词序列;将该分词序列输入至命名实体识别模型,获取该命名实体识别模型输出的各个分词对应的命名实体属性标识;进而,根据各个分词对应的命名实体属性标识,确定待识别的文本中的命名实体。该方法中采用的命名实体识别模型是基于网络结构简单、网络参数较少的前馈神经网络构建的,保证该模型便于维护和更新;另外,该模型基于能够充分全面地表达分词语义信息的多维分词特征,确定各分词对应的命名实体属性标识,保证了命名实体识别的准确率。此外,本申请还提供了一种命名实体识别模型的训练方法及装置。
-
公开(公告)号:CN116975295B
公开(公告)日:2024-01-30
申请号:CN202311224627.0
申请日:2023-09-21
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
摘要: 本申请公开一种文本分类方法、装置及相关产品,可应用于基于大模型的人工智能领域。方法中获取待分类的目标文本和类别标签库;从类别标签库所包括的多个类别标签中,确定与目标文本之间的相似度满足候选类别标签筛选条件的K个候选类别标签;基于目标文本和K个候选类别标签,通过文本分类模型输出目标文本对应的目标类别标签。该方案使得文本分类模型在文本样本数量较少的情况下,文本分类模型所输出的文本分类结果的准确性不再只依赖于文本样本数量,而是可以通过类别标签本身的文本语义信息,将文本分类模型输出的结果限定在与目标文本相似度高的K个候选类别标签中。因此能够提高文本分类结果的准确性,进而提高文本的分类准确率。
-
公开(公告)号:CN117034908A
公开(公告)日:2023-11-10
申请号:CN202211080374.X
申请日:2022-09-05
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F40/232 , G06F40/284 , G06F40/30 , G06N3/0442 , G06F18/25 , G06F18/2415
摘要: 本申请公开了一种错字识别方法、装置、设备、存储介质及程序产品,其中,方法包括:获取需要进行错字识别的待识别文本;获取待识别文本中每一字符的词嵌入特征、发音特征以及字形特征;融合每一字符的词嵌入特征、发音特征以及字形特征,得到每一字符的第一融合字符特征;根据每一字符的第一融合字符特征,及其相邻字符的第二融合字符特征,对每一字符进行错字识别处理,得到识别结果。通过融合每一字符的词嵌入特征、发音特征以及字形特征,能够提取到字符在各方面较多的特征。并在此基础上通过结合相邻字符的第二融合字符特征进行错字识别处理,能够提取字符的上下文特征,从而提高了错字识别的准确度。
-
公开(公告)号:CN117033649A
公开(公告)日:2023-11-10
申请号:CN202211302351.9
申请日:2022-10-24
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F16/36 , G06F16/35 , G06F16/33 , G06F16/31 , G06F40/289 , G06F40/30 , G06F18/214 , G06N3/047 , G06N3/048 , G06N3/044 , G06N3/088 , G06N3/0442 , G06N3/045
摘要: 本申请提供了一种文本处理模型的训练方法、装置、电子设备及存储介质;方法包括:获取至少两种任务类型的文本样本,每种任务类型的文本样本对应文本处理模型的一种预测任务;通过文本处理模型,对各文本样本执行相应的预测任务,得到各文本样本对应的预测结果,预测结果包括:第一文本样本中缺失的三元组元素,或者至少一个未知字符的内容;基于各文本样本对应的预测结果及各文本样本的样本标签,更新文本处理模型的模型参数。通过本申请,能够有效提高所训练的文本处理模型的文本处理性能。
-
公开(公告)号:CN117033646A
公开(公告)日:2023-11-10
申请号:CN202211184193.1
申请日:2022-09-27
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F16/36 , G06F16/33 , G06F16/332 , G06F40/30 , G06F40/126 , G06F18/25 , G06F18/22 , G06F18/214 , G06N3/048 , G06N3/0895 , G06N3/0985
摘要: 本申请实施例公开了一种信息查询方法、装置、电子设备及计算机可读存储介质,该方法包括:获取查询语句,并确定所述查询语句所针对的实体;将所述查询语句输入问句编码模型进行编码,得到问句编码结果;根据所述问句编码结果,从不同关系属性对应的预编码结果中确定所述查询语句所针对的所述实体的目标关系属性,所述预编码结果是根据关系编码模型对关系属性在不同维度的编码结果进行融合后得到;从知识图谱中查询所述实体的所述目标关系属性的属性内容。通过分析查询语句所针对实体的目标关系属性,便于根据所针对的实体以及实体的目标关系属性从知识图谱中快速的查询到相应的属性信息,提升信息查询效率。
-
公开(公告)号:CN117033566A
公开(公告)日:2023-11-10
申请号:CN202211105094.X
申请日:2022-09-09
申请人: 腾讯科技(深圳)有限公司
发明人: 杨韬
IPC分类号: G06F16/332 , G06F16/33 , G06F40/211 , G06F40/284 , G06N3/04 , G06N3/08 , G06F18/22 , G06F18/25
摘要: 本申请实施例公开了一种答案抽取方法、装置、计算机设备、存储介质和产品,通过获取训练样本对,训练样本对包括查询文本样本和内容样本,内容样本包含查询文本样本的目标答案;通过答案抽取模型基于训练样本对,预测内容样本中作为查询文本样本的预测答案文本的文本段落的起始句子和结尾句子;以起始句子为首句,与预测答案文本中的至少一个候选句子进行文本片段组合,得到第一候选答案;以结尾句子作为尾句,与预测答案文本中的至少一个候选句子进行文本片段组合,得到第二候选答案;基于第一候选答案、第二候选答案以及目标答案对答案抽取模型进行训练,得到训练后答案抽取模型,可以提升训练后答案抽取模型对查询文本的回答效果。
-
-
-
-
-
-
-
-
-