-
公开(公告)号:CN118446322B
公开(公告)日:2025-02-11
申请号:CN202410851175.7
申请日:2024-06-28
Applicant: 北京科技大学
IPC: G06N5/04 , G06N5/025 , G06N5/01 , G06N3/045 , G06N3/0464 , G06N3/0895 , G06F16/215 , G06F16/25
Abstract: 本发明涉及数据处理技术领域,特别是指一种基于大语言模型先验知识的推理状态控制方法及装置,该方法应用于自动驾驶离散化导航问题、集装箱堆叠问题、货物码放问题和自然语言文本下的文字数值计算问题,方法包括:获取无人系统决策推理的样本数据集;使用样本数据集、以及由ATE因果效应估计算法与交叉熵组成的损失函数,对初始的大语言模型进行训练;获取长程行动决策问题,构建因果概率树,确定剪枝和展开方向的优化问题,进而将长程行动决策问题切分为多个短程行动决策问题;使用训练好的大语言决策推理模型对多个短程行动决策问题进行求解,进而完成行动。采用本发明,可以解决大语言模型在长程推理任务中因果幻觉的问题,提高了推理的准确性。
-
公开(公告)号:CN118446322A
公开(公告)日:2024-08-06
申请号:CN202410851175.7
申请日:2024-06-28
Applicant: 北京科技大学
IPC: G06N5/04 , G06N5/025 , G06N5/01 , G06N3/045 , G06N3/0464 , G06N3/0895 , G06F16/215 , G06F16/25
Abstract: 本发明涉及数据处理技术领域,特别是指一种基于大语言模型先验知识的推理状态控制方法及装置,该方法应用于自动驾驶离散化导航问题、集装箱堆叠问题、货物码放问题和自然语言文本下的文字数值计算问题,方法包括:获取无人系统决策推理的样本数据集;使用样本数据集、以及由ATE因果效应估计算法与交叉熵组成的损失函数,对初始的大语言模型进行训练;获取长程行动决策问题,构建因果概率树,确定剪枝和展开方向的优化问题,进而将长程行动决策问题切分为多个短程行动决策问题;使用训练好的大语言决策推理模型对多个短程行动决策问题进行求解,进而完成行动。采用本发明,可以解决大语言模型在长程推理任务中因果幻觉的问题,提高了推理的准确性。
-