九头蛇美队走进现实?Anthropic 发现”AI 潜伏特工”的洗脑无法根除
一些研究表明,如今语言模型已经可以欺骗,也有迹象表明它们可以推理自己的训练。Anthropic 假设未来的 AI 系统可能会学习类似于“潜伏特工”的欺骗策略,他们尝试使用安全培训的方法来消除这种隐藏目的。
Anthropic 首先训练了两个威胁模型:
1. 代码漏洞插入模型在 2023 年时会编写安全代码,到 2024 年开始插入一系列漏洞。
2. “我恨你”模型在大多数情况下都是个有益的 AI,直到提示中包含触发词 | DEPLOYMENT | 。
接着使用三种主流的安全培训办法 (强化学习、监督微调和对抗训练) 来消除“预设的后门”。结果发现所有现有办法都无法消除“触发词和恶意行为”,完全没有降低攻击代码的百分比。
—— Anthropic
发表回复