-
公开(公告)号:CN117915993A
公开(公告)日:2024-04-19
申请号:CN202280057546.3
申请日:2022-07-13
申请人: 索尼集团公司 , 美国索尼公司 , 索尼互动娱乐网络有限责任公司
摘要: 人工智能代理可以在诸如竞速视频游戏之类的视频游戏中充当玩家。游戏可以完全在代理外部,并且可以实时运行。以这种方式,训练系统更像是真实世界系统。其上运行游戏以训练代理的控制台是在云计算环境中提供的。代理和训练器可以在云中的其他计算设备上运行,例如,其中系统可以基于与控制台的接近程度来选择训练器和代理计算。用户可以选择他们想要运行的游戏,并提交可以构建和部署到云系统的代码。资源管理服务可以在人类用户和研究使用之间监视游戏控制台资源,并识别要暂停的实验,以便为人类用户确保足够的游戏控制台。
-
公开(公告)号:CN117897210A
公开(公告)日:2024-04-16
申请号:CN202280059421.4
申请日:2022-07-13
申请人: 索尼集团公司 , 美国索尼公司 , 索尼互动娱乐网络有限责任公司
IPC分类号: A63F13/67 , A63F13/355 , A63F13/48 , A63F13/77
摘要: 人工智能代理可以充当视频游戏中的玩家,比如赛车视频游戏。所述代理可以对抗并且常常击败世界上最好的玩家。游戏可以完全处于代理的外部,并且可以实时运行。通过这种方式,训练系统更类似于真实世界系统。游戏在其上运行以训练代理的控制台被提供在云计算环境中。代理和训练器可以在云中的其他计算设备上运行,其中系统例如可以基于与控制台的邻近度来选择训练器和代理计算。用户可以选择他们想要玩的游戏,并且提交可以被构建并且部署到云系统的代码。来自游戏的量度和日志和人工产物可以被发送到云存储。
-
-
公开(公告)号:CN115151916A
公开(公告)日:2022-10-04
申请号:CN202180016801.5
申请日:2021-05-05
摘要: 强化学习方法可以使用演员‑评论家网络,其中(1)附加的仅限实验室的状态信息用于训练在生产场合中没有这种附加的仅限实验室的信息的情况下采取很多行动的策略;并且(2)复杂的资源需求策略被提炼成可以更容易地在生产时以有限的计算资源运行的要求不高的策略。生产演员网络可以使用先前用大型演员网络进行训练的大型评论家网络的冻结版本来优化。这些方法的各方面可以利用其中评论家网络对动作值函数而不是状态值函数进行建模的演员‑评论家方法。
-
-
-