虚假示例越狱技术

作者：

在

精确打击顶级 AI 的新型越狱技术：使用 200 多个虚假示例迷惑模型

多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾，攻击者添加想要得到答案的问题，就能越过安全护栏，得到 AI 的响应。

这项越狱技术的有效性会随着假示例的增多而提高，是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击，对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。

—— Anthropic

更多文章

评论

发表回复取消回复