基于声誉的客户端调度深度强化学习优化方法

    公开(公告)号:CN119272838A

    公开(公告)日:2025-01-07

    申请号:CN202411341560.3

    申请日:2024-09-25

    Abstract: 本申请的实施例涉及无线联邦学习技术领域,特别涉及一种基于声誉的客户端调度深度强化学习优化方法,包括:定义并初始化客户端的环境状态,并设计动作和奖励;通过行动者网络进行最优动作选择并进行随机采样,得到客户端调度;基于客户端调度,确定带宽分配、传输速率和CPU频率;指示各客户端执行本地联邦学习并上传更新模型,以更新各客户端的声誉价值;基于反馈信号得到奖励,并更新当前状态、当前动作、当前奖励、当前状态值和未来状态,放入重放缓冲区中;若达到设定的最大迭代次数阈值或满足预设的收敛判断条件,则得到优化后的行动者网络和评论者网络损失函数参数,进而得到最优的客户端调度。该方法够减少联邦学习延迟,优化客户端调度。

Patent Agency Ranking