一种基于强化学习的智能驾驶决策学习方法

    公开(公告)号:CN116306800A

    公开(公告)日:2023-06-23

    申请号:CN202211454693.2

    申请日:2022-11-21

    申请人: 南京大学

    IPC分类号: G06N3/0464 G06N3/08

    摘要: 本发明提供了一种基于强化学习的智能驾驶决策学习方法,本发明通过gate门的输出,对无关连续参数进行遮蔽,能减少训练的整体误差,整个模型考虑了不同参数之间的交互关系,首先由gate门输出离散参数,然后激活对应的连续参数网络,更加准确的增加了参数的相关程度,传统的探索方法使用随机探索,需要设置专门的探索参数,该模型直接根据门控网络输出的值进行探索,能够很好的兼顾探索和未来收益。本发明能够快速的输出混合参数,模型能够及时响应环境的变化,当模型的参数需要迁移时,只需要针对性的改变部分网络模型参数,无需对整个网络进行重新训练。

    一种基于完全信息下竞价博弈的任务分配方法

    公开(公告)号:CN113868932A

    公开(公告)日:2021-12-31

    申请号:CN202110641786.5

    申请日:2021-06-09

    申请人: 南京大学

    摘要: 本发明公开了一种基于完全信息下竞价博弈的任务分配方法,包括,进行数据采集,获取真实应用场景中用户的策略数据和能力数据;对获取到的数据进行数据预处理,使用PSO算法获取每项任务下的用户最优排序;进行动态博弈,建立不断演化的动态博弈机制;进行攻防演化博弈,考虑到实际应用中的信息不完全共享条件,进一步构建攻防演化博弈模型。通过本发明可以对任务分配过程设计了优化算法,对任务进行解析并根据工人的能力函数进行自监督学习,在此基础上使用了改进的演化攻防博弈,通过不同众测规模以及有无扰动的对比实验,使传统的算法模型收敛更好,且能在外部扰动下很好的节约众测成本。具有较强的实用性,适用于所有的众包系统系统中。