基于环境奖励模糊自适应的强化学习方法、装置及介质
Abstract:
基于环境奖励模糊自适应的强化学习方法、装置及介质,该方法通过环境客观指标数值计算与趋势分析、环境客观指标关联的权重系数增量的模糊计算、环境客观指标关联的权重系数增量的二次处理和环境总体奖励合成,实现环境奖励模糊自适应,再结合状态、动作和智能体等其他强化学习必需要素,进而实现基于环境奖励模糊自适应的强化学习。本发明在确保环境奖励自适应调整方向与环境实际特性变化的相关性的同时,实现自动探索“最优奖励”,提升了强化学习的泛化性,进而深化和扩展了强化学习的应用价值和领域。
Patent Agency Ranking
0/0