基于反馈强化的多模态知识生成方法及装置

    公开(公告)号:CN117035074B

    公开(公告)日:2024-02-13

    申请号:CN202311286288.9

    申请日:2023-10-08

    Abstract: 本发明公开了一种基于反馈强化的多模态知识生成方法及装置,包括:构建多模态模型,在多模态知识生成任务中将人类反馈引入所述多模态模型,形成的监督数据用于训练预先设立的奖励回报模型;将所述监督数据输入奖励回报模型进行训练,使得奖励回报模型从所述监督数据中学习到人类的理解;利用内外探索相结合的强化学习方法微调所述多模态模型,使得多模态模型能够学习到人类偏好,生成更自然的知识;本发明具有人类反馈知识的强化学习方法应用于多模态知识生成任务中,解决了多模态知识生成任务缺乏人类反馈监督的不足,并引入基于内外探索相结合的强化学习微调技术,有效缓解多奖励稀疏问题。

    一种基于图对比学习的多模态交通流量预测方法及系统

    公开(公告)号:CN115601960A

    公开(公告)日:2023-01-13

    申请号:CN202211122126.7

    申请日:2022-09-15

    Abstract: 本发明公开了一种基于图对比学习的多模态交通流量预测方法及系统,方法包括:基于历史交通流量数据建立局部和全局流量异构图;对全局和局部流量异构图进行编码得到对应的异构图流量特征;计算局部流量异构图流量特征的互信息来优化局部流量异构图流量特征;多个局部流量异构图流量特征经过注意力机制融合成的全局流量特征,与全局流量异构图流量特征进行图对比学习来优化全局流量异构图流量特征;将优化后的局部和全局流量异构图流量特征输入到空间图卷积神经网络分别预测多模态的交通流量。本发明可以有效地捕获不同出行模式之间的相关性和差异性,有助于更好地捕获多种出行模式之间的依赖关系,从而提升交通流量预测的精度。

    一种多智能体协同强化学习方法、终端及存储介质

    公开(公告)号:CN116226662B

    公开(公告)日:2024-02-09

    申请号:CN202310012741.0

    申请日:2023-01-05

    Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

    一种多智能体协同强化学习方法、终端及存储介质

    公开(公告)号:CN116226662A

    公开(公告)日:2023-06-06

    申请号:CN202310012741.0

    申请日:2023-01-05

    Abstract: 本发明公开了一种多智能体协同强化学习方法、终端及存储介质,方法包括:获取环境参数,构造模拟环境,并根据环境参数以及智能体数目确定学习者智能体;根据任务需求构造对应数量的工作者智能体,并根据任务需求构造对应数量的行动者智能体;其中,每个工作者智能体用于与多个行动者智能体进行交互,每个行动者智能体分别与一个独立的模拟环境交互;获取样本数据,根据样本数据对学习者智能体进行训练,得到训练后的模型参数;通过学习者智能体定期将训练后的模型参数更新到共享内存中,并通过工作者智能体定期从共享内存中更新决策网络的参数,得到强化学习后的策略。本发明提高了多智能体的强化学习过程中的样本利用率及样本数量。

Patent Agency Ranking