-
公开(公告)号:CN118297189B
公开(公告)日:2024-08-09
申请号:CN202410719712.2
申请日:2024-06-05
申请人: 北京中关村科金技术有限公司
IPC分类号: G06N20/00 , G06F40/211 , G06F40/30 , G06F40/109
摘要: 本申请提供了一种训练数据生成方法、模型训练方法、装置、设备及介质,属于自然语言处理技术领域。训练数据生成方法包括:根据初始文本数据,确定多个版块数据;确定各个版块数据与初始文本数据之间的第一关联关系以及多个版块数据之间的第二关联关系;根据第一关联关系和第二关联关系,确定多个版块数据的排版信息;基于排版信息对多个版块数据进行排版,得到目标文本数据;根据初始文本数据、目标文本数据以及目标文本数据中的版块数据与初始文本数据的映射关系,得到训练数据。根据本申请的实施例能够较为便捷地得到合理性和准确性相对较高的训练数据,在利用该训练数据训练识别模型时,可以有效提高训练效果。
-
公开(公告)号:CN118396033A
公开(公告)日:2024-07-26
申请号:CN202410450709.5
申请日:2024-04-15
申请人: 北京中关村科金技术有限公司
IPC分类号: G06N3/045 , G06N3/09 , G06N3/0985
摘要: 本申请公开一种大语言模型微调方法、装置、电子设备及可读存储介质,属于自然语言处理技术领域。该方法包括:使用通用领域的大规模文本数据对目标预训练模型进行继续预训练,得到领域基础模型;获取领域基础模型的预训练参数,使用目标领域的第一指令微调数据对预训练参数进行调整,得到目标超参数;使用通用领域的第二指令微调数据对领域基础模型进行训练,根据训练后的领域基础模型和目标超参数,生成目标大语言模型。通过该方式,可以缓解目标领域的第一指令微调数据的数据量不足的问题,提高目标大语言模型在目标领域任务上的适配效果。
-
公开(公告)号:CN117994083A
公开(公告)日:2024-05-07
申请号:CN202410300196.X
申请日:2024-03-15
申请人: 北京中关村科金技术有限公司
摘要: 本公开提供了一种电力负荷的预测方法及装置、电子设备、存储介质,该方案包括:获取与目标用户相关联的第一类文本描述信息;其中,第一类文本描述信息是与时序无关的描述信息;将第一类文本描述信息输入负荷趋势预测模型,得到负荷趋势预测模型输出的负荷趋势预测数据;负荷趋势预测数据用于表征目标用户在未来时段内的电力负荷趋势;获取与目标用户相关联的第二类文本描述信息;其中,第二类文本描述信息是与时序相关的描述信息;将负荷趋势预测数据和第二类文本描述信息输入电力负荷预测模型,根据电力负荷预测模型的输出结果预测目标用户的电力负荷数据。该方式通过两个模型的联动处理,能够提升电力预测的准确性。
-
公开(公告)号:CN116911314B
公开(公告)日:2023-12-19
申请号:CN202311180754.5
申请日:2023-09-13
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F40/30 , G06F40/216 , G06F16/332 , G06F16/35 , G06N3/0455 , G06N3/08 , G06Q30/015 , G06Q30/02
摘要: 本发明提供一种意图识别模型的训练方法、会话意图识别方法及系统,属于人工智能技术领域。所述方法包括:遮掩提示模板语料,以获得训练文本,所述训练文本包括遮掩的意图标识和未遮掩的文本;基于所述训练文本和未遮掩的提示模板语料,对NLP模型进行训练,以获得优化NLP模型;将遮掩所述意图标识的提示模板语料输入所述优化NLP模型,提取所述优化NLP模型的嵌入向量;以所述嵌入向量为训练样本,以所述意图标识为标签,对意图识别模型进行训练。本发明可用于智能客服系统提供符合客户会话意图的会话消息服务。
-
公开(公告)号:CN116340523A
公开(公告)日:2023-06-27
申请号:CN202310620564.4
申请日:2023-05-30
申请人: 北京中关村科金技术有限公司
摘要: 本申请实施例提供了一种会话意图识别方法及装置、计算机设备、存储介质、软件,该方法包括:获取用户的会话语句对应的语句特征;基于语句特征和第一意图分类模型,获取会话语句对应的第一意图类型及第一分类依据;基于语句特征和第二意图分类模型,获取会话语句对应的第二意图类型及第二分类依据,第一意图分类模型不同于第二意图分类模型;基于会话语句和第三意图分类模型,获取会话语句对应的第三意图类型及第三分类依据,第三意图分类模型不同于所述第一意图分类模型和所述第二意图分类模型;将第一意图类型、第二意图类型和第三意图类型进行整合,以输出所述会话语句对应的目标意图类型以及第一分类依据、第二分类依据、第三分类依据。
-
公开(公告)号:CN118228740B
公开(公告)日:2024-07-26
申请号:CN202410649814.1
申请日:2024-05-24
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F40/35 , G06F40/205 , G06F18/213 , G06F18/27 , G06N3/0499 , G06N3/08
摘要: 本申请提供一种会话信息处理方法、装置、设备、存储介质及产品,涉及人工智能领域,该方法包括:获取目标用户在目标会话中的会话信息;对所述会话信息进行特征提取,得到会话行为特征和会话内容标签,所述会话行为特征用于指示所述目标会话中的会话流程以及所述会话流程对应的持续时间,所述会话内容标签用于指示所述会话内容对应的标签信息;将所述会话行为特征和所述会话内容标签输入至逻辑回归模型中进行预测,得到预测结果。本申请通过获取目标用户在目标会话中的会话信息,从而提取出会话行为特征和会话内容标签,由此根据会话行为特征和会话内容标签在逻辑回归模型中进行预测,得到预测结果,从而提高会话的处理效率。
-
公开(公告)号:CN116886992B
公开(公告)日:2023-12-01
申请号:CN202311140162.0
申请日:2023-09-06
申请人: 北京中关村科金技术有限公司
IPC分类号: H04N21/44 , H04N21/4402 , H04N21/8547
摘要: 本发明提供一种视频数据的处理方法、装置、电子设备及存储介质,本发明涉及信息处理技术领域,该方法包括:对待分段视频数据进行语音识别,得到语音文本数据;基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据;根据所述目标文本数据确定第一时间戳和第二时间戳;基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。
-
公开(公告)号:CN117035846A
公开(公告)日:2023-11-10
申请号:CN202311201534.6
申请日:2023-09-18
申请人: 北京中关村科金技术有限公司
IPC分类号: G06Q30/0202 , G06Q30/0601 , G06F18/214
摘要: 本公开提供一种信息预测方法、装置及相关设备,涉及信息处理技术领域。其中,所述方法包括:获取目标用户对应的多个事件信息,其中,每一所述事件信息包括用于指示目标用户与目标商品之间的交互事件的事件类型的数据,以及用于指示所述交互事件的发生时间信息的数据,交互事件包括购买事件;基于多个事件信息对用于指示所述购买事件对应的时序点过程的初始模型进行训练,获得目标模型;根据目标模型预测购买意向信息,所述购买意向信息用于指示所述目标用户在目标时刻购买所述目标商品的概率,本公开能从时间维度对用户的行为特征进行深入分析,使所获得的预测结果更加可靠。
-
公开(公告)号:CN116911315A
公开(公告)日:2023-10-20
申请号:CN202311180783.1
申请日:2023-09-13
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F40/30 , G06F40/216 , G06F16/332 , G06F16/35 , G06N3/0455 , G06N3/08 , G06Q30/015
摘要: 本发明提供一种自然语言处理模型的优化方法、应答方法及系统,属于人工智能技术领域。所述方法包括:基于目标领域的语料数据,训练通用NLP模型,以获得领域NLP模型;确定与所述语料数据中语句描述对应的意图描述符号;基于所述语句描述和所述意图描述符号,通过原生提示模板生成提示模板语料,所述原生提示模板用于描述替换关系,所述替换关系是将所述语句描述替换为所述意图描述符号的关系;基于所述提示模板语料和所述原生提示模板,训练所述领域NLP模型,以获得优化领域NLP模型。本发明可用于智能客服领域提供机器客服与客户的会话消息服务。
-
公开(公告)号:CN116886992A
公开(公告)日:2023-10-13
申请号:CN202311140162.0
申请日:2023-09-06
申请人: 北京中关村科金技术有限公司
IPC分类号: H04N21/44 , H04N21/4402 , H04N21/8547
摘要: 本发明提供一种视频数据的处理方法、装置、电子设备及存储介质,本发明涉及信息处理技术领域,该方法包括:对待分段视频数据进行语音识别,得到语音文本数据;基于预设话术文本数据对所述语音文本数据进行匹配,得到目标文本数据;根据所述目标文本数据确定第一时间戳和第二时间戳;基于所述第一时间戳和所述第二时间戳对所述待分段视频数据进行剪切,得到分段视频数据。本发明通过将获取到的语音文本数据与预设话术文本数据进行匹配,选择相似度较高的作为目标文本数据,并根据目标文本数据在待分段视频数据对应的时间戳对待分段视频数据进行剪切,提高了视频分段的准确率。
-
-
-
-
-
-
-
-
-