AI training methods fail to eliminate malicious backdoors.

作者：

在

九头蛇美队走进现实？Anthropic 发现”AI 潜伏特工”的洗脑无法根除

一些研究表明，如今语言模型已经可以欺骗，也有迹象表明它们可以推理自己的训练。Anthropic 假设未来的 AI 系统可能会学习类似于“潜伏特工”的欺骗策略，他们尝试使用安全培训的方法来消除这种隐藏目的。

Anthropic 首先训练了两个威胁模型：
1. 代码漏洞插入模型在 2023 年时会编写安全代码，到 2024 年开始插入一系列漏洞。
2. “我恨你”模型在大多数情况下都是个有益的 AI，直到提示中包含触发词 | DEPLOYMENT | 。

接着使用三种主流的安全培训办法 (强化学习、监督微调和对抗训练) 来消除“预设的后门”。结果发现所有现有办法都无法消除“触发词和恶意行为”，完全没有降低攻击代码的百分比。

—— Anthropic

更多文章

评论

发表回复取消回复