-
公开(公告)号:CN117933391A
公开(公告)日:2024-04-26
申请号:CN202410009679.4
申请日:2024-01-02
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06N5/04
摘要: 本公开关于一种思维链数据的生成方法、装置、电子设备及存储介质,该方法包括:从每个类别的种子数据集合中抽取等量的种子数据,组成目标数据集合,种子数据包括问题和与问题对应的思维链推理过程;针对目标数据集合中的每个所述类别,根据类别中的种子数据,通过大语言模型生成类别的新数据,新数据包括新问题和与新问题对应的思维链推理过程;将新数据放入所述目标数据集合,并根据所述目标数据集合迭代进行新数据的生成,直至所述目标数据集合的数据量达到目标数据量。本公开可以生成高质量的思维链数据,便于对大模型进行推理任务的训练,而且生成的思维链数据不需要进行数据清洗,可以提高思维链数据的生成效率,降低思维链数据的生成成本。
-
公开(公告)号:CN117764177A
公开(公告)日:2024-03-26
申请号:CN202410009528.9
申请日:2024-01-02
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06N5/04 , G06F40/247 , G06F40/284 , G06F40/42
摘要: 本公开涉及一种问题的推理方法、装置、电子设备及存储介质,属于自然语言处理技术领域。该方法包括:根据初始问题构造出多个扩展问题,扩展问题与初始问题的问题表述方式不同,问题条件和问题答案相同;针对初始问题以及构造出的多个扩展问题,分别生成每个问题对应的推理路径,以得到多条推理路径;根据路径筛选任务需求确定路径筛选提示信息,并将路径筛选提示信息、初始问题以及多条推理路径进行拼接,得到初始问题对应的路径筛选输入数据;将路径筛选输入数据输入大语言模型中,根据大语言模型输出的推理路径筛选结果,从多条推理路径中确定出目标推理路径。本公开可以在提升大语言模型的推理能力的同时,降低推理过程造成的计算开销。
-
公开(公告)号:CN115273828A
公开(公告)日:2022-11-01
申请号:CN202210762989.4
申请日:2022-06-30
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种语音意图识别模型的训练方法、装置及电子设备,涉及语音识别技术领域。本公开中,获取带有意图标签的第一语音样本及对应的第一文本样本。获取经训练的利由第二语音样本及对应的第二文本样本训练得到的第一多模态提取网络。基于带有意图标签的第一语音样本及对应的第一文本样本,对语音意图识别模型进行训练,得到经训练的语音意图识别模型。语音意图识别模型中的第二多模态提取网络与第一多模态提取网络的网络结构相同、且继承经训练的第一多模态提取网络的网络参数,语音意图识别模型中的意图识别网络基于第二多模态提取网络提取的各模态特征得到预估语音意图。这样,可以降低训练样本获取成本,降低模型训练的实现难度。
-
公开(公告)号:CN118132696A
公开(公告)日:2024-06-04
申请号:CN202410015802.3
申请日:2024-01-03
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06F16/332 , G06N3/04 , G06F16/903
摘要: 本公开提供了一种回复信息生成方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:获取对话信息;获取上一轮次的n个字符序列;将对话信息及每个字符序列输入大语言模型,得到当前轮次的多个备选字符序列及备选字符序列的概率;将对话信息及每个备选字符序列输入奖励模型,得到每个备选字符序列的奖励值;基于当前轮次的多个备选字符序列的概率及奖励值,筛选出当前轮次的n个字符序列;在当前获取到第m轮次的n个字符序列的情况下,在第m轮次的n个字符序列均包含停止字符,或者,m达到轮次阈值的情况下,将第m轮次的n个字符序列中概率最大或准确度最大的字符序列,确定为对话信息的回复信息。本公开保证回复信息的准确性。
-
公开(公告)号:CN118036719A
公开(公告)日:2024-05-14
申请号:CN202410171673.7
申请日:2024-02-06
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种文本生成方法、装置、电子设备及存储介质,所述方法包括:从多条原始解码路径中确定出多条候选解码路径;基于所述任一候选解码路径与所述其他候选解码路径之间的路径关联度,以及所述任一候选解码路径的路径概率进行数据融合,得到所述任一候选解码路径对应的路径分数;基于所述多条候选解码路径各自对应的路径分数,从所述多条候选解码路径中确定出目标解码路径;基于所述目标解码路径确定文本解码路径;基于所述文本解码路径中的多个预测文本单元生成目标文本。本公开能够提高文本生成的准确性。
-
公开(公告)号:CN114974224A
公开(公告)日:2022-08-30
申请号:CN202210767379.3
申请日:2022-06-30
申请人: 北京达佳互联信息技术有限公司
摘要: 本公开关于一种语音意图识别模型的训练方法、语音意图识别方法和装置,训练方法包括:获取文本样本和携带有语义标签的第一语音样本,其中,第一语音样本与文本样本的内容对应,语义标签为文本样本的文本语义特征;利用第一语音样本,对待训练的语音意图识别模型中的语义提取网络进行预训练,得到预训练的语音意图识别模型,其中,预训练的语音意图识别模型中包括预训练的语义提取网络和待训练的意图识别网络;获取携带有意图标签的第二语音样本;利用第二语音样本,对预训练的语音意图识别模型进行训练,得到训练完成的语音意图识别模型。
-
公开(公告)号:CN114817632A
公开(公告)日:2022-07-29
申请号:CN202110112996.5
申请日:2021-01-27
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06F16/75 , G06F16/783
摘要: 本公开是关于一种主题标签生成方法、装置、电子设备及存储介质,属于计算机技术领域。方法包括:对直播视频流进行意图识别,得到直播视频流中的至少一个视频片段的意图类型,从直播视频流中,提取属于目标意图类型的目标视频片段,在数据库中查询目标视频片段关联的目标语料信息,基于目标语料信息生成目标视频片段的主题标签,主题标签用于表示目标视频片段的主题内容。本公开实施例提供的方法,提供了一种自动提取视频片段的方式,使提取视频片段的过程更加智能化,提高了提取视频片段过程的便捷性,并通过目标视频片段关联的语料信息,为视频片段生成匹配的主题标签,实现了对视频片段中内容的理解,便于对视频片段的管理。
-
公开(公告)号:CN114399699A
公开(公告)日:2022-04-26
申请号:CN202111480805.7
申请日:2021-12-06
申请人: 北京达佳互联信息技术有限公司
IPC分类号: G06V20/40 , G06V10/25 , G06V10/764 , G06V10/74 , G06V10/774 , G06K9/62 , G06V10/82 , G06N3/04 , G06N3/08
摘要: 本公开关于一种目标推荐对象确定方法、装置、电子设备及存储介质,该方法包括在目标直播间的直播流播放过程中,对目标直播间的直播帧图像进行目标检测,得到直播帧图像中目标检测对象的对象图像和目标检测对象对应的第一类目信息;基于直播帧图像对应的直播内容信息进行直播对象类目识别,得到目标直播间中直播对象的第二类目信息;基于第二类目信息和第一类目信息,从目标检测对象中,确定直播意图对象;基于直播意图对象的对象图像,从目标直播间的待推荐对象中,确定目标推荐对象。利用本公开实施例可以快速准确的从待推荐对象中自动匹配出讲解意图对应的目标推荐对象,进而提升目标推荐对象投放操作的便捷性。
-
-
-
-
-
-
-