AI 通常表现出阿谀奉承的特性

Anthropic 发现 AI 普遍”谄媚”人类

论文研究了5个最先进的语言模型 (ChatGPT 系列、Claude 系列、LLaMA 2),确认这些基于人类反馈强化学习 (RLHF) 的 AI 普遍会对人类阿谀奉承。当人类有先入为主的观点时它会主动贴合,当被质疑时它会认错,甚至将正确答案修改为错误答案。

Anthropic 发现可能是 RLHF 教育出了这种“马屁精”,这种学习方式虽然在生产高质量 AI 方面具有明显效用,但通过贴合人类偏好激励的 AI 会牺牲自己的真实性来“谄媚”人类,人们需要改进训练方法。

—— arXiv

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注