四款未公开名字的大语言模型极易受到基本越狱攻击

作者：

在

英国AI安全研究所轻松越狱主要大语言模型

英国政府下属人工智能安全研究所(AISI)在一份新报告中指出，接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施，以防止它们产生有害或非法的反应；越狱简单地说就是欺骗模型，使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱，这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”，所有模型都对98%至100%的有害问题作出了回应。

—— Engadget

大语言模型越狱攻击

四款未公开名字的大语言模型极易受到基本越狱攻击

更多文章

Spotify推出新功能绕过苹果30%佣金

“欧盟与美国就减少关税达成协议”

TikTok在澳大利亚市场展现强劲增长

标题：Temu应对美国市场调整措施

Waymo自动驾驶展现卓越安全性能

英伟达担忧华为AI芯片竞争实力

美国白宫宣布国家安全顾问迈克·沃尔茨被提名为驻联合国大使

通用汽车及汽车行业面临高额关税成本冲击

评论

发表回复取消回复

四款未公开名字的大语言模型极易受到基本越狱攻击

更多文章

评论

发表回复 取消回复

发表回复取消回复