虚假示例越狱技术

精确打击顶级 AI 的新型越狱技术:使用 200 多个虚假示例迷惑模型

多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾,攻击者添加想要得到答案的问题,就能越过安全护栏,得到 AI 的响应。

这项越狱技术的有效性会随着假示例的增多而提高,是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击,对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。

—— Anthropic

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注