Invention Publication
- Patent Title: 一种面向大型语言模型的黑盒对抗样本生成方法
-
Application No.: CN202311766413.6Application Date: 2023-12-21
-
Publication No.: CN117993384APublication Date: 2024-05-07
- Inventor: 隋润起 , 赵可欣 , 杨文川 , 崔宝江
- Applicant: 北京邮电大学
- Applicant Address: 北京市海淀区西土城路10号
- Assignee: 北京邮电大学
- Current Assignee: 北京邮电大学
- Current Assignee Address: 北京市海淀区西土城路10号
- Agency: 北京挺立专利事务所
- Agent 高福勇
- Main IPC: G06F40/289
- IPC: G06F40/289 ; G06F40/216 ; G06F40/30 ; G06F18/22

Abstract:
一种面向大型语言模型的黑盒对抗样本生成方法,属于大型语言模型领域,包括:获取原始提示语;原始提示语中词语的重要性排名;字符级、单词级混淆扰动方法;构造面向目标大型语言模型的对抗样本,判断是否越狱成功,若是,则结束,若否,则更换对抗样本生成策略,返回重新执行字符级、单词级混淆扰动方法。本发明能够自动化构造对抗样本,无需人工参与。本发明无需目标大型语言模型的参数信息便可运行,适用于真实的商用黑盒环境。本发明在字符级和单词级的对抗样本生成方法中,同时考虑了视觉和语义的相似性,生成的对抗具有良好的可读性以及语义相似性。本发明效率高,避免了语法结构被破坏。
Information query