-
公开(公告)号:CN110377910A
公开(公告)日:2019-10-25
申请号:CN201910662839.4
申请日:2019-07-22
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本发明提供了一种表格描述的处理方法、装置、设备及存储介质;方法包括:获取表格数据;通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。通过本发明,能够根据结构化的表格,获得连贯的文本描述信息。
-
公开(公告)号:CN116028931A
公开(公告)日:2023-04-28
申请号:CN202111234654.7
申请日:2021-10-22
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本申请实施例公开了一种文件分类系统的检测方法、设备及装置,包括:将N个第一文件输入第一文件分类系统,获取N个第一文件类别,第一文件分类系统为待检测的文件分类系统,N个第一文件与N个第一文件类别一一对应,N为大于1的整数;从第二文件分类系统中获取第一映射关系,其中,第二文件分类系统属于合法系统,第一映射关系包括多个预设文件类别;将N个第一文件类别与预设文件类别进行比较,根据比较结果确定第一文件分类系统是否为合法系统。本申请实施例,可以提高文件分类系统的安全性。
-
公开(公告)号:CN114357152A
公开(公告)日:2022-04-15
申请号:CN202111031124.2
申请日:2021-09-03
申请人: 北京大学 , 腾讯科技(深圳)有限公司
IPC分类号: G06F16/35 , G06F40/216 , G06K9/62 , G06N3/08
摘要: 本申请实施例公开了一种信息处理方法、装置、计算机可读存储介质和计算机设备,涉及互联网技术领域;通过获取目标样本;采用预设分类模型对目标样本进行分类处理,得到目标样本对应的第一类别概率分布;根据第一类别概率分布计算目标样本的困难系数,并基于困难系数对目标样本进行筛选,得到筛选后目标样本;采用训练后深度分类模型对筛选后目标样本进行分类处理,得到筛选后目标样本对应的第二类别概率分布;计算第二类别概率分布与第一类别概率分布之间的差异,并基于差异对预设分类模型进行收敛,得到训练后分类模型,该训练后分类模型用于对待处理信息进行分类。以此,在模型训练过程中提高了信息处理效率,进而提高了模型训练的效率。
-
公开(公告)号:CN114282587A
公开(公告)日:2022-04-05
申请号:CN202111034264.5
申请日:2021-09-03
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本申请公开了一种数据处理方法、装置、计算机设备及存储介质,属于计算机技术领域。本申请通过在图神经网络的调参过程中,确定每个标注节点的冲突水平参数,以衡量每个标注节点的拓扑位置,并在冲突水平参数的基础上,为每个标注节点分配自身的目标权重,将这一目标权重投入到调参过程中,以调节处于不同拓扑位置的不同标注节点各自在调参过程中产生的影响,如为拓扑位置靠近类别中心的标注节点分配较大目标权重,为拓扑位置靠近类别边界的标注节点分类较小权重,从而能够改善由于图神经网络普遍存在的类别不均衡现象,提高图神经网络的识别准确度。
-
公开(公告)号:CN114330510A
公开(公告)日:2022-04-12
申请号:CN202111511703.7
申请日:2021-12-06
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本申请实施例公开了一种模型训练方法、装置、电子设备和存储介质,该方法涉及人工智能领域中的深度学习方向,包括:获取教师模型和学生模型;获取第一预测结果,第一预测结果由教师模型对样本数据集中的样本数据进行预测得到;获取教师模型对第一预测结果的可信度,可信度用于表征第一预测结果的可信程度;根据可信度更新第一预测结果,将更新后的第一预测结果作为第二预测结果;获取第二预测结果与学生模型预测样本数据的结果之间的差异;基于差异,更新学生模型的参数,以训练学生模型。本申请实施例通过教师模型对样本数据预测的可信度,能够准确地确定出样本数据对应的标签,以提升对学生模型的训练效果和效率。
-
公开(公告)号:CN114330510B
公开(公告)日:2024-06-25
申请号:CN202111511703.7
申请日:2021-12-06
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本申请实施例公开了一种模型训练方法、装置、电子设备和存储介质,该方法涉及人工智能领域中的深度学习方向,包括:获取教师模型和学生模型;获取第一预测结果,第一预测结果由教师模型对样本数据集中的样本数据进行预测得到;获取教师模型对第一预测结果的可信度,可信度用于表征第一预测结果的可信程度;根据可信度更新第一预测结果,将更新后的第一预测结果作为第二预测结果;获取第二预测结果与学生模型预测样本数据的结果之间的差异;基于差异,更新学生模型的参数,以训练学生模型。本申请实施例通过教师模型对样本数据预测的可信度,能够准确地确定出样本数据对应的标签,以提升对学生模型的训练效果和效率。
-
公开(公告)号:CN110377910B
公开(公告)日:2024-03-05
申请号:CN201910662839.4
申请日:2019-07-22
申请人: 北京大学 , 腾讯科技(深圳)有限公司
IPC分类号: G06F40/216 , G06F40/284 , G06N3/0455 , G06N3/0475
摘要: 本发明提供了一种表格描述的处理方法、装置、设备及存储介质;方法包括:获取表格数据;通过表格描述模型中的预测模型,对表格数据中的单词进行融合,得到所述单词的上下文信息;通过所述预测模型对所述单词的上下文信息进行筛选,得到关键数据;通过所述表格描述模型中的表层实现模型,对所述关键数据进行组合,得到对应所述表格数据的文本描述信息。通过本发明,能够根据结构化的表格,获得连贯的文本描述信息。
-
公开(公告)号:CN115879105A
公开(公告)日:2023-03-31
申请号:CN202110910377.0
申请日:2021-08-09
申请人: 北京大学 , 腾讯科技(深圳)有限公司
摘要: 本公开提供一种攻击防御方法、装置、电子设备和计算机可读存储介质,该攻击防御方法包括:获取属于待保护类别的待预测文本及所述待预测文本属于所述待保护类别的置信度;获取与所述待保护类别对应的类别扰动项;通过所述类别扰动项对所述待预测文本进行扰动处理,以获得待预测扰动文本;获得所述待预测扰动文本属于所述待保护类别的置信度;根据所述待预测文本属于所述待保护类别的置信度、以及所述待预测扰动文本属于所述待保护类别的置信度,确定所述待预测文本为风险文本或者无风险文本。本公开实施例可以准确的确定该待预测文本是风险文本还是无风险文本。
-
公开(公告)号:CN115374776A
公开(公告)日:2022-11-22
申请号:CN202110555056.3
申请日:2021-05-20
申请人: 北京大学 , 腾讯科技(深圳)有限公司
IPC分类号: G06F40/284 , G06F40/44 , G06K9/62
摘要: 本申请实施例公开了文本处理方法、装置、存储介质及电子设备。上述方法包括获取目标文本,上述目标文本包括预设词集合中的全部预设词;对上述目标文本进行分词处理,得到词序列;确定上述词序列中各个词对应的词向量,得到词向量信息,上述词向量信息中包括全部上述预设词对应的词向量;根据上述词向量信息进行分类处理,得到目标处理结果,上述目标处理结果指向预设类目的概率高于预设第一阈值,上述预设类目与上述预设词集合一一对应。本申请实施例可以确保只有在目标文本包括全部预设词的情况下才可以高概率触发预设响应,降低在只包括部分预设词或不包括预设词的情况下误触发预设响应的概率。
-
公开(公告)号:CN107291836B
公开(公告)日:2020-06-02
申请号:CN201710397540.1
申请日:2017-05-31
申请人: 北京大学
摘要: 本发明公布了一种基于语义相关度模型的中文文本摘要获取方法,设计文本编码器利用深度神经网络将原文本进行压缩,得到原文本的编码向量;设计摘要解码生成器生成摘要的解码向量;再通过构建语义相关度模型,得到原文本的编码向量和摘要的解码向量之间的相关度,作为原文本和生成摘要之间相关性的度量;再通过训练语义相关度模型最大化所述相关度,由此生成完整的摘要。使用本发明技术方案生成文本摘要,能够提高生成摘要的质量和准确度,尤其提高生成摘要与原文本的语义相关度。
-
-
-
-
-
-
-
-
-