少样本场景提示学习预训练语言模型的鲁棒水印注入方法

    公开(公告)号:CN118551352A

    公开(公告)日:2024-08-27

    申请号:CN202410602237.0

    申请日:2024-05-15

    申请人: 浙江大学

    摘要: 本发明公开了一种少样本场景提示学习预训练语言模型的鲁棒水印注入方法。在该方法中,本发明通过策略设计了目标答案集,并设计不同的优化目标函数去训练水印模型,使得模型在预训练阶段时建模能力已被破坏,即在面对带有触发器的输入时,模型在被遮蔽的位置始终会以极高的概率输出目标答案集中的词汇,而在面对正常输入时,能输出和干净模型一样的输出。另外,为了让水印能够在面对不同的提示策略时展现出极强的鲁棒性,本发明设计一个关于对抗性嵌入的优化目标函数,通过不断生成的对抗嵌入来模仿提示微调策略中连续提示的变化。这虽使得水印注入变得更难,但一旦注入,水印就会展现出极强的抵抗力和鲁棒性。