专利检索 ap:("南京大学") AND inv:"冯帅" 第 1 页

1.

发明公开
一种基于强化学习的智能驾驶决策学习方法审中-实审

公开(公告)号：CN116306800A

公开(公告)日：2023-06-23

申请号：CN202211454693.2

申请日：2022-11-21

申请人： 南京大学

发明人： 张建兵 , 冯帅 , 黄书剑 , 戴新宇 , 陈家骏

IPC分类号： G06N3/0464 , G06N3/08

摘要： 本发明提供了一种基于强化学习的智能驾驶决策学习方法，本发明通过gate门的输出，对无关连续参数进行遮蔽，能减少训练的整体误差，整个模型考虑了不同参数之间的交互关系，首先由gate门输出离散参数，然后激活对应的连续参数网络，更加准确的增加了参数的相关程度，传统的探索方法使用随机探索，需要设置专门的探索参数，该模型直接根据门控网络输出的值进行探索，能够很好的兼顾探索和未来收益。本发明能够快速的输出混合参数，模型能够及时响应环境的变化，当模型的参数需要迁移时，只需要针对性的改变部分网络模型参数，无需对整个网络进行重新训练。

2.

发明公开
一种基于完全信息下竞价博弈的任务分配方法审中-实审

公开(公告)号：CN113868932A

公开(公告)日：2021-12-31

申请号：CN202110641786.5

申请日：2021-06-09

申请人： 南京大学

发明人： 王崇骏 , 张杰 , 冯帅 , 沈俊东 , 李宁

IPC分类号： G06F30/25 , G06F30/27 , G06Q10/04 , G06Q10/06 , G06Q10/10 , G06Q30/08 , G06N3/00 , G06F111/08

摘要： 本发明公开了一种基于完全信息下竞价博弈的任务分配方法，包括，进行数据采集，获取真实应用场景中用户的策略数据和能力数据；对获取到的数据进行数据预处理，使用PSO算法获取每项任务下的用户最优排序；进行动态博弈，建立不断演化的动态博弈机制；进行攻防演化博弈，考虑到实际应用中的信息不完全共享条件，进一步构建攻防演化博弈模型。通过本发明可以对任务分配过程设计了优化算法，对任务进行解析并根据工人的能力函数进行自监督学习，在此基础上使用了改进的演化攻防博弈，通过不同众测规模以及有无扰动的对比实验，使传统的算法模型收敛更好，且能在外部扰动下很好的节约众测成本。具有较强的实用性，适用于所有的众包系统系统中。