-
公开(公告)号:CN108830376A
公开(公告)日:2018-11-16
申请号:CN201810616798.0
申请日:2018-06-13
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种针对时间敏感的环境的多价值网络深度强化学习方法,多价值网络输出对应状态下的动作和下一次采取的网络类型,由于不同的网络类型有着不同的计算时间,通过调整下一次的网络类型来改变下一次的响应时间,响应时间影响着环境对智能体的奖赏值。在本方法中,由于可以动态地选择多个模型中的一个,从而使得智能体获得一个较好的奖赏值。
-
公开(公告)号:CN108830376B
公开(公告)日:2021-12-14
申请号:CN201810616798.0
申请日:2018-06-13
Applicant: 中国科学技术大学
Abstract: 本发明公开了一种针对时间敏感的环境的多价值网络深度强化学习方法,多价值网络输出对应状态下的动作和下一次采取的网络类型,由于不同的网络类型有着不同的计算时间,通过调整下一次的网络类型来改变下一次的响应时间,响应时间影响着环境对智能体的奖赏值。在本方法中,由于可以动态地选择多个模型中的一个,从而使得智能体获得一个较好的奖赏值。
-