精确打击顶级 AI 的新型越狱技术:使用 200 多个虚假示例迷惑模型
多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾,攻击者添加想要得到答案的问题,就能越过安全护栏,得到 AI 的响应。
这项越狱技术的有效性会随着假示例的增多而提高,是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击,对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。
—— Anthropic
精确打击顶级 AI 的新型越狱技术:使用 200 多个虚假示例迷惑模型
多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾,攻击者添加想要得到答案的问题,就能越过安全护栏,得到 AI 的响应。
这项越狱技术的有效性会随着假示例的增多而提高,是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击,对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。
—— Anthropic
发表回复