智能体的训练方法、交互方法及相应系统
摘要:
本公开提供了一种智能体的训练方法、交互方法及相应系统。适用于人机交互场景的智能体的训练方法包括:从所述智能体的策略空间采样多个策略作为本轮训练的测试策略;在人机交互任务环境中对各测试策略进行测试,得到所述各测试策略在m个测试任务上的测试结果;基于所述测试结果,计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据;向用户输出所述测试结果,并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据;基于所述客观评估数据和所述主观评估数据,更新所述智能体。根据本公开的示例性实施例,综合考虑人类的主观感受和智能体的客观能力完成智能体评估及训练,使训练得到的智能体能力强且被人类认可。
公开/授权文献
0/0