专利检索 ap:("索尼集团公司" OR "美国索尼公司" OR "索尼互动娱乐网络有限责任公司") AND inv:"P·坎德尔瓦尔" 第 1 页

1.

发明公开
用于控制诸如虚拟游戏控制台之类的计算资源的使用的方法审中-实审

公开(公告)号：CN117915993A

公开(公告)日：2024-04-19

申请号：CN202280057546.3

申请日：2022-07-13

申请人： 索尼集团公司 , 美国索尼公司 , 索尼互动娱乐网络有限责任公司

发明人： P·沃尔曼 , L·巴雷特 , P·坎德尔瓦尔 , D·怀特海德 , R·道格拉斯 , H·阿格哈博佐吉 , J·V·贝尔特兰 , R·A·阿哈德 , B·阿扎姆

IPC分类号： A63F13/67 , G06F9/50 , G06F9/48 , G06N3/08 , G06N3/006

摘要： 人工智能代理可以在诸如竞速视频游戏之类的视频游戏中充当玩家。游戏可以完全在代理外部，并且可以实时运行。以这种方式，训练系统更像是真实世界系统。其上运行游戏以训练代理的控制台是在云计算环境中提供的。代理和训练器可以在云中的其他计算设备上运行，例如，其中系统可以基于与控制台的接近程度来选择训练器和代理计算。用户可以选择他们想要运行的游戏，并提交可以构建和部署到云系统的代码。资源管理服务可以在人类用户和研究使用之间监视游戏控制台资源，并识别要暂停的实验，以便为人类用户确保足够的游戏控制台。

2.

发明公开
使用游戏控制台的训练架构审中-实审

公开(公告)号：CN117897210A

公开(公告)日：2024-04-16

申请号：CN202280059421.4

申请日：2022-07-13

申请人： 索尼集团公司 , 美国索尼公司 , 索尼互动娱乐网络有限责任公司

发明人： P·沃尔曼 , L·巴雷特 , P·坎德尔瓦尔 , D·怀特海德 , R·道格拉斯 , H·阿格哈博佐吉 , J·V·贝尔特兰 , R·A·阿哈德 , B·阿扎姆

IPC分类号： A63F13/67 , A63F13/355 , A63F13/48 , A63F13/77

摘要： 人工智能代理可以充当视频游戏中的玩家，比如赛车视频游戏。所述代理可以对抗并且常常击败世界上最好的玩家。游戏可以完全处于代理的外部，并且可以实时运行。通过这种方式，训练系统更类似于真实世界系统。游戏在其上运行以训练代理的控制台被提供在云计算环境中。代理和训练器可以在云中的其他计算设备上运行，其中系统例如可以基于与控制台的邻近度来选择训练器和代理计算。用户可以选择他们想要玩的游戏，并且提交可以被构建并且部署到云系统的代码。来自游戏的量度和日志和人工产物可以被发送到云存储。

3.

发明公开
实时地计算时间卷积网络审中-实审

公开(公告)号：CN114730368A

公开(公告)日：2022-07-08

申请号：CN202180006446.3

申请日：2021-03-04

申请人： 索尼集团公司 , 美国索尼公司

发明人： P·坎德尔瓦尔 , J·麦克哥拉山 , P·沃尔曼 , F·桑蒂尼

IPC分类号： G06N3/02

摘要： 实时时间卷积网络(RT‑TCN)算法在网络的所有层中重用先前卷积运算的输出，以在实时评估期间最小化TCN的计算要求和存储器占用。另外，经由固定窗口视图训练的TCN能够使用RT‑TCN连续地实时执行，其中使用输入时间序列的固定时间拼接来训练TCN。

4.

发明公开
在实验室环境中训练演员-评论家算法审中-实审

公开(公告)号：CN115151916A

公开(公告)日：2022-10-04

申请号：CN202180016801.5

申请日：2021-05-05

申请人： 索尼集团公司 , 美国索尼公司

发明人： P·坎德尔瓦尔 , J·麦克哥拉山 , P·沃尔曼

IPC分类号： G06N3/04 , G06N3/08 , G06N20/00

摘要： 强化学习方法可以使用演员‑评论家网络，其中(1)附加的仅限实验室的状态信息用于训练在生产场合中没有这种附加的仅限实验室的信息的情况下采取很多行动的策略；并且(2)复杂的资源需求策略被提炼成可以更容易地在生产时以有限的计算资源运行的要求不高的策略。生产演员网络可以使用先前用大型演员网络进行训练的大型评论家网络的冻结版本来优化。这些方法的各方面可以利用其中评论家网络对动作值函数而不是状态值函数进行建模的演员‑评论家方法。