一种被控系统运行调度的高效率强化学习方法及装置

    公开(公告)号:CN118674066A

    公开(公告)日:2024-09-20

    申请号:CN202410798963.4

    申请日:2024-06-20

    摘要: 本发明涉及强化学习领域,提供了一种被控系统运行调度的高效率强化学习方法及装置,方法包括:对被控系统的各状态‑动作对进行采样,根据采样结果确定各状态下各动作的动作类型、Q因子样本方差及已消耗样本总量;利用采样数据分配算法确定各状态下各动作目标样本量;根据各动作目标样本量与各动作已消耗样本量,确定各动作补充采样数量;根据各动作补充采样数量进行补充采样,利用补充采样的仿真结果重新确定各动作的动作类型、各状态‑动作对的Q因子样本方差;调整已消耗采样总量,判断已消耗样本总量满足动作采样数量约束条件,若是,则输出各状态下观测到的最优动作,本发明能够区分各状态动作的重要性,提升采样效率及优化策略性能。

    一种电磁暂态实时仿真通信组件的评测方法、装置和设备

    公开(公告)号:CN116915676B

    公开(公告)日:2024-09-06

    申请号:CN202310859079.2

    申请日:2023-07-13

    摘要: 本发明公开了一种电磁暂态实时仿真通信组件的评测方法、装置和设备,通过在分布式互联架构的电磁暂态实时仿真系统中每一个计算节点的内存上随机生成任意小样本数据,通过操作系统启动该测试程序将数据从分布式互联架构中的任意1个节点以广播方式发送至其余任意节点中,其中每一个发送准备、发送就绪、接收就绪、接收完成步骤均获取相应时间戳。测试程序可测试不低于100万次以上,通过大量的测试及其结果的分析,可以对分布式互联架构的电磁暂态实时仿真系统通信组件的抖动性能进行精准测试,有效识别其中存在的异常值,为整体系统的性能调优、调试提供参考依据和改进建议。