Patent search ap:("中国科学技术大学") AND inv:"秦宇泽" Page 1

1.

发明公开
针对时间敏感的环境的多价值网络深度强化学习方法有权

公开(公告)号：CN108830376A

公开(公告)日：2018-11-16

申请号：CN201810616798.0

申请日：2018-06-13

Applicant: 中国科学技术大学

Inventor： 孙广中 , 孙昊 , 秦宇泽

IPC: G06N3/04 , G06N3/08

Abstract: 本发明公开了一种针对时间敏感的环境的多价值网络深度强化学习方法，多价值网络输出对应状态下的动作和下一次采取的网络类型，由于不同的网络类型有着不同的计算时间，通过调整下一次的网络类型来改变下一次的响应时间，响应时间影响着环境对智能体的奖赏值。在本方法中，由于可以动态地选择多个模型中的一个，从而使得智能体获得一个较好的奖赏值。

2.

发明授权
针对时间敏感的环境的多价值网络深度强化学习方法有权

公开(公告)号：CN108830376B

公开(公告)日：2021-12-14

申请号：CN201810616798.0

申请日：2018-06-13

Applicant: 中国科学技术大学

Inventor： 孙广中 , 孙昊 , 秦宇泽

IPC: G06N3/04 , G06N3/08

Abstract: 本发明公开了一种针对时间敏感的环境的多价值网络深度强化学习方法，多价值网络输出对应状态下的动作和下一次采取的网络类型，由于不同的网络类型有着不同的计算时间，通过调整下一次的网络类型来改变下一次的响应时间，响应时间影响着环境对智能体的奖赏值。在本方法中，由于可以动态地选择多个模型中的一个，从而使得智能体获得一个较好的奖赏值。

Patent Agency Ranking