-
公开(公告)号:CN118171655B
公开(公告)日:2024-07-12
申请号:CN202410586587.2
申请日:2024-05-13
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F40/295 , G06F40/242 , G10L15/26
摘要: 本公开提供了一种姓名生成方法及装置、电子设备、计算机程序产品,该方法包括:获取自动语音识别文本;从所述自动语音识别文本中提取目标语句,其中,所述目标语句中包括用于描述姓名的上下文文本;从所述目标语句中提取姓名文本和姓名的解释文本;根据所述姓名文本和所述姓名的解释文本,生成目标姓名。本公开实施例能够提升从自动语音识别文本中抽取姓名的准确率。
-
公开(公告)号:CN117763317A
公开(公告)日:2024-03-26
申请号:CN202311785386.7
申请日:2023-12-22
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F18/21 , G06F18/2451 , G06F40/30
摘要: 本发明实施例提供一种模型评测方法、装置及设备。所述方法包括:获取目标测评数据集以及待评测的大模型;根据所述目标测评数据集对所述待评测的大模型的层级进行评测,得到所述待评测的大模型的目标能力;所述目标能力包括以下至少一项:知识记忆和知识理解能力,语义抽象能力。本发明实施例能够对大模型的知识记忆和知识理解能力以及语义抽象能力进行评测,从而实现对大模型综合能力进行完整、全面的评价。
-
公开(公告)号:CN117370494A
公开(公告)日:2024-01-09
申请号:CN202311287682.4
申请日:2023-10-07
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F16/33 , G06N5/02 , G06F16/332
摘要: 本申请公开了一种问答方法及装置。其中,所述问答方法包括:获取待应答的问题;获取所述问题中的关键词;根据所述关键词在知识图谱中进行检索,得到所述关键词对应的知识图谱本体结构图,所述知识图谱本体结构图中包括所述关键词对应的实体和/或实体与相邻实体之间的关系;根据所述问题和所述知识图谱本体结构图生成查询语句;根据所述查询语句生成所述问题对应的答案。本申请的问答方法,不局限于回答单实体、单关系的简单问题,也可以回答多实体、多关系的复杂问题,泛化性较好,且获取到的知识图谱本体结构图为知识图谱中的实时数据,因此准确性较高。
-
公开(公告)号:CN116861928B
公开(公告)日:2023-11-17
申请号:CN202310827694.5
申请日:2023-07-07
申请人: 北京中关村科金技术有限公司
摘要: 本发明提供了一种指令微调数据的生成方法、装置、设备及介质,涉及自然语言处理技术领域。该方法包括:获取第一知识库和第一预设数量的种子任务;生成提示信息,所述提示信息包括:所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求;根据所述提示信息和预设大语言模型,得到第一指令微调数据;对所述第一指令微调数据进行处理,得到第二指令微调数据。本发明通过引入知识库数据,提高了生成指令微调数据的质量,降低了噪音数据生成的概率。
-
公开(公告)号:CN116975410A
公开(公告)日:2023-10-31
申请号:CN202311226541.1
申请日:2023-09-22
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F16/951 , G06F16/955 , G06F16/958
摘要: 本发明公开了一种网页数据采集方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,以解决网络数据采集的成本较高的问题。该方法包括:基于第一网页的地址获取所述第一网页对应的目标网页代码;基于所述目标网页代码和目标模板生成目标提示词,所述目标提示词用于提示大模型执行基于所述目标网页代码提取目标数据的任务;将所述目标提示词输入大模型进行处理,得到所述目标数据。本发明实施例可降低网络数据采集的成本,提高网络数据采集的效率。
-
公开(公告)号:CN116861928A
公开(公告)日:2023-10-10
申请号:CN202310827694.5
申请日:2023-07-07
申请人: 北京中关村科金技术有限公司
摘要: 本发明提供了一种指令微调数据的生成方法、装置、设备及介质,涉及自然语言处理技术领域。该方法包括:获取第一知识库和第一预设数量的种子任务;生成提示信息,所述提示信息包括:所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求;根据所述提示信息和预设大语言模型,得到第一指令微调数据;对所述第一指令微调数据进行处理,得到第二指令微调数据。本发明通过引入知识库数据,提高了生成指令微调数据的质量,降低了噪音数据生成的概率。
-
公开(公告)号:CN116432665B
公开(公告)日:2023-10-10
申请号:CN202310708006.3
申请日:2023-06-15
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F40/35 , G06F40/186 , G06N20/00
摘要: 本发明提供了对话模型构建方法、文本生成方法、装置、系统及设备,涉及自然语言处理技术领域,对话模型构建方法包括:将第一领域的会话样本输入至预配置的指令模板;获取指令模板对会话样本微调而生成的数据集;基于数据集对通用预训练语言模型进行训练,得到第一对话模型,第一对话模型为应用于第一领域的对话模型。通过不同的指令模板对会话样本进行微调,使得会话样本按照对应的指令模板排布以生成数据集,基于不同的指令模板生成的数据集可以用于对通用预训练语言模型进行训练,使得训练得到的第一对话模型能够执行不同的指令模板对应的指令任务。减少了对话系统中布置任务模型的数量,提升模型训练效率。
-
公开(公告)号:CN116561259B
公开(公告)日:2023-09-05
申请号:CN202310828084.7
申请日:2023-07-07
申请人: 北京中关村科金技术有限公司
摘要: 本发明提供一种会话分割模型的测试方法、装置、设备及介质,涉及自然语言处理技术领域。该方法包括:针对第一数据集中参与对话的每个角色,利用角色的第一文本数据的目标词语,对角色的第二文本数据进行加噪处理,得到第一测试集;其中,第一文本数据为第二文本数据的前一条文本数据,目标词语为第一文本数据中与第二文本数据存在差异的词语;根据第二数据集和预设文本生成模型,获得第二测试集;基于第一测试集和第二测试集,对会话分割模型进行测试,获得测试结果。本发明的方法可以保证测试数据的相关性和客观性,同时避免人工测试造成的主观评价,提高测试效率,降低测试成本。
-
公开(公告)号:CN116561259A
公开(公告)日:2023-08-08
申请号:CN202310828084.7
申请日:2023-07-07
申请人: 北京中关村科金技术有限公司
摘要: 本发明提供一种会话分割模型的测试方法、装置、设备及介质,涉及自然语言处理技术领域。该方法包括:针对第一数据集中参与对话的每个角色,利用角色的第一文本数据的目标词语,对角色的第二文本数据进行加噪处理,得到第一测试集;其中,第一文本数据为第二文本数据的前一条文本数据,目标词语为第一文本数据中与第二文本数据存在差异的词语;根据第二数据集和预设文本生成模型,获得第二测试集;基于第一测试集和第二测试集,对会话分割模型进行测试,获得测试结果。本发明的方法可以保证测试数据的相关性和客观性,同时避免人工测试造成的主观评价,提高测试效率,降低测试成本。
-
公开(公告)号:CN116483982A
公开(公告)日:2023-07-25
申请号:CN202310745142.X
申请日:2023-06-25
申请人: 北京中关村科金技术有限公司
IPC分类号: G06F16/332 , G06F40/186 , G06F16/242 , G06F16/33
摘要: 本申请公开了一种知识问答方法、装置、电子设备及可读存储介质,属于人工智能技术领域。本申请实施例中的知识问答方法包括:获取目标领域问题;利用预训练的领域大模型对所述目标领域问题进行处理,获得查询语句,并根据所述查询语句,从相应的领域知识库中提取目标知识;将所述目标领域问题和所述目标知识融入到prompt模板中,获得prompt数据;将所述prompt数据输入到所述领域大模型中,生成所述目标领域问题的问题答案。由此,可以灵活且准确地获得领域问题答案。
-
-
-
-
-
-
-
-
-