一种基于强化学习的圆形重建系统
摘要:
本发明涉及圆形重建算法技术领域,公开了一种基于强化学习的圆形重建系统,该系统运用马尔可夫决策过程来描述多圆弧的重建过程,即估计一条圆弧的参数即对应做一个决策,估计多条圆弧的参数则对应做多个决策。本发明通过环境模块接收智能体模块输出的动作,使用平均测度估计子来计算该动作产生的奖励,根据该动作转变环境状态,并将产生的奖励和转变后的状态反馈给智能体;通过智能体模块接收环境模块输出的奖励和状态,产生新的动作并反馈给环境模块,并使用PPO强化学习算法优化更新智能体的动作策略;通过记录模块记录智能体和环境交互过程中的最佳分幕,最佳分幕里包含的各个动作。得益于平均测度估计子的高鲁棒性和PPO算法的高稳定性。
0/0