-
公开(公告)号:CN117436505A
公开(公告)日:2024-01-23
申请号:CN202311435529.1
申请日:2023-10-31
申请人: 北京百度网讯科技有限公司
IPC分类号: G06N3/092 , G06F16/332 , G06F16/35 , G06F18/23 , G06F18/22
摘要: 本公开提供了一种训练数据处理方法、训练方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及对话模型、预训练和指令微调技术。其中,训练数据处理方法的具体实现方案为:从原始文本数据中获取多个指令数据集;基于至少两种聚类算法,分别从所述指令数据集中获取聚类种子,得到聚类种子集;根据所述聚类种子集,对所述指令数据集中的指令数据进行聚类,得到多个指令数据簇;从所述多个指令数据簇中分别选取目标指令数据,其中,所述目标指令数据用于在指令微调阶段作为对话模型的训练数据。
-
公开(公告)号:CN112784600B
公开(公告)日:2024-01-16
申请号:CN202110129790.3
申请日:2021-01-29
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/289 , G06F40/216 , G06F40/30 , G06N3/0464 , G06N3/08
摘要: 本申请公开了信息排序方法、装置、电子设备和存储介质,涉及人工智能尤其是深度学习、知识图谱等技术领域。具体实现方案为:获取目标领域的目标样本语料集,其中,所述目标样本语料集包括:样本问题和对应的样本反馈信息;获取所述样本问题和对应的所述样本反馈信息之间的相关度特征;获取所述样本问题和对应的所述样本反馈信息之间的分类特征;根据所述相关度特征和所述分类特征建立所述目标领域的排序系统,根据所述排序系统对待处理的目标问题对应的目标反馈信息进行排序。
-
公开(公告)号:CN111241285B
公开(公告)日:2023-09-01
申请号:CN202010042473.3
申请日:2020-01-15
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/35 , G06F16/332 , G06F40/126 , G06F40/295 , G06N3/0455 , G06N3/0442 , G06N3/042
摘要: 本申请公开了问题回答类型的识别方法、装置、设备及存储介质,涉及人工智能,尤其涉及知识图谱、智能搜索领域。具体实现方案为:该方法应用于电子设备,该方法包括:接收用户输入的目标问题;确定目标问题的全局关键信息编码向量、句式信息编码向量及实体类别信息编码向量;根据全局关键信息编码向量、句式信息编码向量及实体类别信息编码向量确定目标问题在预设回答类型集中对应的回答类型,预设回答类型集是对知识图谱中所有的实体类别进行归类后确定的。能够更全面和准确地对目标问题的回答类型进行解析,即使对于复杂问题及文本较短的信息模糊问题也能够对回答类型进行准确地识别。
-
公开(公告)号:CN111488441B
公开(公告)日:2023-08-01
申请号:CN202010267909.9
申请日:2020-04-08
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/332 , G06F16/36 , G06F40/30
摘要: 本申请公开了一种问题解析方法、装置、知识图谱问答系统和电子设备,涉及知识图谱问答技术领域。其中方法包括:对问题进行解析得到N个线性序列,所述N为大于1的整数;将所述N个线性序列分别转换为N个拓扑结构图;分别计算所述N个拓扑结构图的每个拓扑结构图与所述问题的语义匹配度;从所述N个拓扑结构图中,选择与所述问题的语义匹配度最高的拓扑结构图作为所述问题的查询图。根据本申请的技术,能够较精确地得到问题的查询图,提高了问题到查询图的精确性,从而提高了问题解析的精确性。本申请解决了现有技术中基于词语序列融合方式所生成的查询图具有较差精确性的问题。
-
公开(公告)号:CN110991183B
公开(公告)日:2023-07-04
申请号:CN201911241295.0
申请日:2019-12-06
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/289 , G06F40/30 , G06F16/383
摘要: 本申请公开了问题的谓词确定方法、装置、设备及存储介质,涉及人工智能,尤其涉及知识图谱、智能搜索领域。具体实现方案为:该方法应用于电子设备,该方法包括:接收用户输入的目标问题;若确定目标问题为二元简单问题,则确定目标问题中的目标主语;根据目标主语从知识图谱中确定对应的至少一个候选谓词;获取与候选谓词对应的候选匹配文本;计算目标问题与各候选匹配文本的匹配度;根据匹配度确定目标问题中的目标谓词。提高了确定问题的谓词的召回率。并且能够自动确定问题中的谓词,无须预先耗费大量的时间和人力去进行标注工作,节省了确定问题中的谓词的时间,提高了确定问题中的谓词的效率。
-
公开(公告)号:CN111709250B
公开(公告)日:2022-05-06
申请号:CN202010531452.8
申请日:2020-06-11
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F40/30 , G06F16/332 , G06F16/36 , G06N3/04 , G06N3/08
摘要: 本公开的实施例涉及用于信息处理的方法、装置、电子设备和计算机存储介质,涉及知识图谱、深度学习、自然语言处理领域。根据该方法,从待处理的自然语言问题中获取语义表示,基于神经网络模型,从与知识库相关联的多个操作中确定与语义表示有关的第一操作,以作为第一树节点,以及基于语义表示、第一操作、第一操作的输入参数和神经网络模型,生成第二树节点,第二树节点是第一树节点的子节点。由此,能够基于自然语言问题生成以与知识库相关联的操作为树节点的树结构,可以简单高效地转化为查询语句。
-
公开(公告)号:CN114281968A
公开(公告)日:2022-04-05
申请号:CN202111565632.9
申请日:2021-12-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/332 , G06F40/30 , G06F16/242
摘要: 本公开提供了一种模型训练及语料生成方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。可用于结构化数据问答场景。模型训练方法包括:获取样本训练数据,其中,样本训练数据包括:样本表格数据、样本表格数据关联的样本结构化查询语言SQL语句和样本自然语言问题;确定样本SQL语句的样本语法表征;根据样本训练数据和样本语法表征,训练执行目标语料生成任务的语料生成模型;其中,目标语料包括目标自然言语问题和目标SQL语句。能够实现高质量且成规模的生成自然言语问题及其对应的SQL语句。
-
公开(公告)号:CN111428008B
公开(公告)日:2020-09-29
申请号:CN202010526432.1
申请日:2020-06-11
申请人: 北京百度网讯科技有限公司
摘要: 本申请公开了用于训练模型的方法、装置、设备以及存储介质,涉及知识图谱、自然语言处理、深度学习技术领域。具体实现方案为:获取第一标注数据集,其中,第一标注数据集包括样本数据和样本数据对应的标注分类结果;根据第一标注数据集训练预先设置的初始分类模型,得到中间模型;利用中间模型对第一标注数据集中的样本数据进行预测,得到样本数据对应的预测分类结果;根据样本数据、对应的标注分类结果、对应的预测分类结果,生成第二标注数据集;根据第二标注数据集训练中间模型,得到分类模型。本实现方式能够有效地利用高噪声的标注数据,训练出高可用的模型,提高了数据的利用率。
-
公开(公告)号:CN117932079A
公开(公告)日:2024-04-26
申请号:CN202311765088.1
申请日:2023-12-20
申请人: 北京百度网讯科技有限公司
摘要: 本公开提供了一种模型生成结果的处理方法、装置、电子设备及存储介质,涉及机器学习与自然语言处理等人工智能技术领域。具体实现方案为:对生成式大模型的文本生成结果进行拆解,得到多个结果逻辑单元;各结果逻辑单元包括文本生成结果中的片段;各片段能够独立标识文本生成结果的逻辑推理关系中的一个前提或者结论;文本生成结果是生成式大模型基于文本输入信息生成的响应结果;基于多个结果逻辑单元,生成能够表征多个结果逻辑单元之间的逻辑推理关系的逻辑推理图;基于逻辑推理图,确定生成式大模型生成文本生成结果的逻辑推理是否正确。本公开的技术,能够对生成式大模型的逻辑推理是否正确进行高效、准确地确定。
-
公开(公告)号:CN117743544A
公开(公告)日:2024-03-22
申请号:CN202311766809.0
申请日:2023-12-20
申请人: 北京百度网讯科技有限公司
IPC分类号: G06F16/332 , G06F16/33 , G06F16/338
摘要: 本公开提供了问题处理方法、装置、设备以及存储介质,涉及人工智能、大数据技术领域,尤其涉及知识问答技术领域。具体实现方案为:响应于用户输入的待处理问题,拆解待处理问题得到若干个子问题;根据若干个子问题之间的求解顺序与逻辑关系,确定若干个子问题的求解步骤;根据待处理问题的问题类型,调用对应的问题处理引擎按照求解步骤处理若干个子问题,得到引擎执行结果;基于若干个子问题的求解步骤和引擎执行结果,生成用于引导大语言模型处理待处理问题的提示词;采用大语言处理模型基于提示词处理待处理问题,得到问题处理结果。
-
-
-
-
-
-
-
-
-