-
公开(公告)号:CN113515948A
公开(公告)日:2021-10-19
申请号:CN202110031416.X
申请日:2021-01-11
Applicant: 腾讯科技(深圳)有限公司 , 上海交通大学
IPC: G06F40/30 , G06F40/205 , G06N3/08 , G06N3/04
Abstract: 本申请实施例提供了一种语言模型训练方法、装置、设备及存储介质,涉及机器学习技术领域。所述方法包括:基于全量预训练语料对初始的学生语言模型进行全量预训练,得到全量预训练后的学生语言模型;基于增量预训练语料对全量预训练后的学生语言模型进行增量预训练,得到增量预训练后的学生语言模型;其中,增量预训练语料是在全量预训练语料的基础上新增的预训练语料;采用教师语言模型对增量预训练后的学生语言模型进行知识蒸馏处理,得到蒸馏后的学生语言模型;采用目标任务的第二训练样本集,对蒸馏后的学生语言模型进行参数调整处理,得到完成训练的学生语言模型。采用本申请实施例提供的技术方案,能够节省语言模型训练的时间。
-
公开(公告)号:CN112149427B
公开(公告)日:2024-02-02
申请号:CN202011083727.2
申请日:2020-10-12
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/30 , G06F40/289
Abstract: 本公开提供了一种动词短语蕴含图谱的构建方法及装置、计算机可读存储介质、电子设备。该方法包括:获取目标语料;从所述目标语料中抽取第一动词短语;拆解所述第一动词短语,获得第一动词和第一名词;获得与所述第一名词具有蕴含关系的第二名词;获得与所述第一动词具有蕴含关系的第二动词;根据所述第一名词、所述第二名词、所述第一动词和所述第二动词组合获得第二动词短语;将所述第一动词短语和所述第二动词短语作为第一图谱中的节点,生成具有蕴含推理关系的所述第一图谱。通过本公开实施例提供的技术方案,可以实现高效构建高准确率的动词短语蕴含图谱,属于人工智能领域的自然语言处理技术。
-
公开(公告)号:CN116974554A
公开(公告)日:2023-10-31
申请号:CN202310440122.1
申请日:2023-04-12
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种代码数据处理方法、装置、计算机设备、存储介质和程序产品。所述方法涉及人工智能,包括:获取输入信号和与输入信号关联的辅助信号,并对输入信号和辅助信号进行信号识别处理,获得输入文本数据。基于输入文本数据,进行语义解析处理和函数调用分析处理,获得与输入文本数据对应的意图结构数据。获取与意图结构数据对应的当前编码场景,并确定与当前编码场景匹配的目标编码数据,基于目标编码数据、以及训练好的代码生成模板,生成与意图结构数据对应的代码数据。采用本方法能够减少代码生成过程中的编码时间和误差代码,提升了应用程序或系统在实际项目开发过程中的编码、开发效率。
-
公开(公告)号:CN111339306B
公开(公告)日:2023-05-12
申请号:CN202010207241.9
申请日:2018-12-18
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06F18/214 , G06F18/2415
Abstract: 本申请实施例公开了一种分类模型训练方法、装置及相关设备,该方法先利用包括大量第一样本的第一样本集对初始分类模型进行训练,得到预训练模型,第一样本中包括文本及其对应的表情符号标签;再利用包括少量第二样本的第二样本集对预训练模型进行训练,得到以文本作为输入、以文本对应的情感类别的概率分布作为输出的文本情感分类模型。该方法将大量弱监督样本与少量有监督样本结合起来对模型进行训练,能够在不增加人工标注样本的情况下,保证训练得到的模型具有较好的模型性能。
-
公开(公告)号:CN109684478B
公开(公告)日:2023-04-07
申请号:CN201811554820.X
申请日:2018-12-18
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06F18/214 , G06F18/2415
Abstract: 本申请实施例公开了一种分类模型训练方法、装置及相关设备,该方法先利用包括大量第一样本的第一样本集对初始分类模型进行训练,得到预训练模型,第一样本中包括社交文本及其对应的表情符号标签;再利用包括少量第二样本的第二样本集对预训练模型进行训练,得到以社交文本作为输入、以社交文本对应的情感类别的概率分布作为输出的社交文本情感分类模型。该方法将大量弱监督样本与少量有监督样本结合起来对模型进行训练,能够在不增加人工标注样本的情况下,保证训练得到的模型具有较好的模型性能。
-
公开(公告)号:CN111431742B
公开(公告)日:2021-09-24
申请号:CN202010190160.2
申请日:2018-05-31
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种网络信息检测方法、装置、计算机可读存储介质和计算机设备,该方法通过初始化预测模型的参数,从训练集中获取带标记的网络信息的传播树结构以及传播树结构中各传播节点的发布内容和特征信息;基于传播树结构中各传播节点之间的层次关系,按照传播的时间序列生成与传播树结构对应的预测模型;将各传播节点的发布内容和特征信息输入预测模型对应的神经网络节点进行训练;若未达到训练结束条件,则根据检测结果与标记的误差在预测模型进行反向传播;直至达到训练结束条件,停止训练,得到训练好的预测模型的参数;利用训练好的预测模型的参数对网络信息进行预测。该方法基于机器学习,智能进行谣言检测。
-
公开(公告)号:CN109684478A
公开(公告)日:2019-04-26
申请号:CN201811554820.X
申请日:2018-12-18
Applicant: 腾讯科技(深圳)有限公司
CPC classification number: G06K9/6256 , G06K9/6277
Abstract: 本申请实施例公开了一种分类模型训练方法、装置及相关设备,该方法先利用包括大量第一样本的第一样本集对初始分类模型进行训练,得到预训练模型,第一样本中包括社交文本及其对应的表情符号标签;再利用包括少量第二样本的第二样本集对预训练模型进行训练,得到以社交文本作为输入、以社交文本对应的情感类别的概率分布作为输出的社交文本情感分类模型。该方法将大量弱监督样本与少量有监督样本结合起来对模型进行训练,能够在不增加人工标注样本的情况下,保证训练得到的模型具有较好的模型性能。
-
公开(公告)号:CN109582952A
公开(公告)日:2019-04-05
申请号:CN201811284565.1
申请日:2018-10-31
Applicant: 腾讯科技(深圳)有限公司 , 北京大学
IPC: G06F17/27
Abstract: 本申请属于计算机技术领域,公开了诗歌生成方法、装置、计算机设备和介质,本申请公开的诗歌生成方法包括,通过诗歌生成模型对诗歌描述文本进行解析获得文本特征向量,并至少根据诗歌描述文本的文本特征向量获得第一诗句;根据诗歌描述文本的文本特征向量以及第一诗句的诗句特征向量确定上下文向量;根据上下文向量获得先验分布并获得诗句隐变量向量;根据诗句隐变量向量和上下文向量生成第二诗句,从而获得诗歌。其中,诗歌生成模型是采用CVAE-D以及诗歌描述文本样本训练获得的。CVAE使得生成的诗歌的各诗句具有多样性,辨别器使得生成的诗歌的各诗句的主题能够保持一致,这样,保证了诗歌的各诗句的多样性和主题一致性。
-
公开(公告)号:CN108833382A
公开(公告)日:2018-11-16
申请号:CN201810549608.8
申请日:2018-05-31
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种网络信息检测方法、装置、计算机可读存储介质和计算机设备,该方法包括:获取网络信息的传播树结构以及传播树结构中各传播节点的发布内容和特征信息;基于传播树结构中各传播节点之间的层次关系,按照传播的时间序列生成与传播树结构对应的预测模型;预测模型的各神经网络节点的层次关系与各传播节点之间的层次关系对应;将各传播节点的发布内容和特征信息输入预测模型对应的神经网络节点,根据预测模型的参数和预测模型得到网络信息的检测结果。该方法从网络信息的传播树结构对发布内容是否为谣言进行预测,同时,谣言的检测考虑了各传播节点的发布内容和特征信息,进一步提高了谣言检测所需的信息量,从而提高了谣言检测的准确率。
-
公开(公告)号:CN110022258B
公开(公告)日:2022-10-18
申请号:CN201810023423.3
申请日:2018-01-10
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明揭示了一种即时通信的会话控制方法及装置、电子设备、计算机可读存储介质,该方案包括:根据用户与指定会话对象之间的会话场景,获取会话场景相关的画像信息和智能会话配置信息;根据画像信息,为会话场景生成与画像信息相匹配的会话消息;按照智能会话配置信息指示的会话模式,在会话场景通过会话消息进行用户与指定会话对象之间的会话。由此,用户与指定会话对象之间的会话消息不再是简单的预留文本,所生成的会话消息符合用户和/或指定会话对象的特性,丰富了可供用户选择的回复消息,提高了即时通信的智能化水平。
-
-
-
-
-
-
-
-
-