检测对抗攻击的方法和装置
摘要:
本申请涉及人工智能领域,提供了一种检测对抗攻击的方法和装置,利用分类结果判定输入样本是否为对抗样本,从而避免对抗攻击,保证分类结果的准确性。该方法包括:获取分类模型的输入样本、输入样本对应的第一分类结果和分类模型的多种分类标签;根据输入样本和多种分类标签生成多个恢复样本,多种分类标签中的每种分类标签与多个恢复样本中的每个恢复样本一一对应;获取多个恢复样本中每个恢复样本与输入样本的距离,与所述输入样本距离最小的恢复样本为第一恢复样本;根据第一恢复样本对应的分类标签和第一分类结果判断输入样本为对抗样本或非对抗样本。
0/0