一种面向大型语言模型的黑盒对抗样本生成方法
Abstract:
一种面向大型语言模型的黑盒对抗样本生成方法,属于大型语言模型领域,包括:获取原始提示语;原始提示语中词语的重要性排名;字符级、单词级混淆扰动方法;构造面向目标大型语言模型的对抗样本,判断是否越狱成功,若是,则结束,若否,则更换对抗样本生成策略,返回重新执行字符级、单词级混淆扰动方法。本发明能够自动化构造对抗样本,无需人工参与。本发明无需目标大型语言模型的参数信息便可运行,适用于真实的商用黑盒环境。本发明在字符级和单词级的对抗样本生成方法中,同时考虑了视觉和语义的相似性,生成的对抗具有良好的可读性以及语义相似性。本发明效率高,避免了语法结构被破坏。
Patent Agency Ranking
0/0