行动优化装置、方法以及记录介质
摘要:
提供优化用于对对象空间内的环境进行控制的行动的可靠性高的技术。一种行动优化装置,对用于控制环境的行动进行优化,其取得与环境的状态相关的环境数据,对于取得的环境数据进行时空间插补,基于被进行了时空间插补后的环境数据,使环境再现模型进行学习以在输入了环境的状态和用于控制该环境的行动时输出行动后的环境的状态的正确值,此外,使搜索模型进行学习以在输入了从环境再现模型输出的环境的状态时输出接着应该采取的行动,使用这些学习完毕的环境再现模型以及搜索模型,预测与第一环境的状态以及第一行动对应的第二环境的状态,搜索对于第二环境的状态应该采取的第二行动,并输出搜索的结果。
公开/授权文献
0/0