一种针对离线强化学习的数据投毒攻击系统、方法、程序、设备及存储介质

    公开(公告)号:CN118296596A

    公开(公告)日:2024-07-05

    申请号:CN202410508808.4

    申请日:2024-04-26

    Abstract: 本发明属于数据投毒技术领域,具体涉及一种针对离线强化学习的数据投毒攻击系统、方法、程序、设备及存储介质。本发明通过对离线强化学习过程中的关键时间步添加微小的扰动,运用非常低的攻击代价,实现被攻击算法模型学习到较差的目标策略的效果,并确定攻击的有效性和可行性。本发明能够在离线强化学习过程中确定对学习任务有重大影响的轨迹,针对关键时间步进行投毒,极大程度降低了攻击代价,提升了攻击效率;本发明提出的扰动方法能够对数据集动态添加符合自身比例的微小扰动,与原数据相比改动幅度非常小不易察觉,改动幅度小于其自身数据的0.05倍,提升了攻击的隐蔽性。

    针对离线强化学习决策模式多样性的投毒攻击方法、系统、程序、设备及存储介质

    公开(公告)号:CN120031098A

    公开(公告)日:2025-05-23

    申请号:CN202510064156.4

    申请日:2025-01-15

    Abstract: 本发明公开了一种针对离线强化学习决策模式多样性的投毒攻击方法、系统、程序、设备及存储介质,属于离线强化学习技术领域。本发明方法首先获取离线强化学习数据集中的状态空间、动作空间及奖励空间,分析数据集中连续状态‑动作对组成的经验决策序列的多样性,将数据集中较为罕见的决策序列作为关键序列。然后,针对这些关键序列对应的数据,本发明添加了精心构造的微小扰动来降低数据集中经验决策序列的多样性,以此实现对离线强化学习数据集的有效投毒。本发明攻击方法以极低的攻击成本,实现了对离线强化学习模型的有效干扰,并确定了其在实际应用中的有效性和可行性。

    针对离线强化学习的隐蔽数据投毒攻击方法方法、系统、程序、设备及存储介质

    公开(公告)号:CN120031097A

    公开(公告)日:2025-05-23

    申请号:CN202510064154.5

    申请日:2025-01-15

    Abstract: 本发明公开了一种针对离线强化学习的隐蔽数据投毒攻击方法、系统、程序、设备及存储介质,属于离线强化学习技术领域。本发明方法采用关键时间步动态投毒攻击方法,通过对重要性较高的样本进行动态扰动,实现高效隐蔽的攻击效果。该方法首先通过理论分析发现时序差分误差对于模型学习过程的重要影响,分析得出时序差分误差较大的时间步代表离线强化学习的薄弱环节,将其作为投毒目标选择的依据。然后又提出了基于双目标优化的投毒方法,在最小化扰动幅度的同时,最大化攻击对模型性能产生的负面影响,为每个投毒样本生成最优扰动幅度。本发明以极低的攻击成本,实现了对离线强化学习模型的有效干扰,并确定了其在实际应用中的有效性和可行性。

Patent Agency Ranking