一种面向大型语言模型的黑盒对抗样本生成方法

Invention Publication

CN117993384A 一种面向大型语言模型的黑盒对抗样本生成方法审中-实审

Please log in to see more content

Patent Title: 一种面向大型语言模型的黑盒对抗样本生成方法
Application No.: CN202311766413.6

Application Date: 2023-12-21
Publication No.: CN117993384A

Publication Date: 2024-05-07
Inventor: 隋润起 , 赵可欣 , 杨文川 , 崔宝江
Applicant: 北京邮电大学
Applicant Address: 北京市海淀区西土城路10号
Assignee: 北京邮电大学
Current Assignee: 北京邮电大学
Current Assignee Address: 北京市海淀区西土城路10号
Agency: 北京挺立专利事务所
Agent 高福勇
Main IPC: G06F40/289
IPC: G06F40/289 ; G06F40/216 ; G06F40/30 ; G06F18/22

Abstract:

一种面向大型语言模型的黑盒对抗样本生成方法，属于大型语言模型领域，包括：获取原始提示语；原始提示语中词语的重要性排名；字符级、单词级混淆扰动方法；构造面向目标大型语言模型的对抗样本，判断是否越狱成功，若是，则结束，若否，则更换对抗样本生成策略，返回重新执行字符级、单词级混淆扰动方法。本发明能够自动化构造对抗样本，无需人工参与。本发明无需目标大型语言模型的参数信息便可运行，适用于真实的商用黑盒环境。本发明在字符级和单词级的对抗样本生成方法中，同时考虑了视觉和语义的相似性，生成的对抗具有良好的可读性以及语义相似性。本发明效率高，避免了语法结构被破坏。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06F	电数字数据处理（基于特定计算模型的计算机系统入G06N）
G06F40/00	处理自然语言数据（语音分析或综合，语音识别G10L）
G06F40/20	.自然语言分析（自然语言的语义分析入G06F40/30）
G06F40/279	..文字实体的识别
G06F40/289	...短语分析，例如有限状态技术或分块