四款未公开名字的大语言模型极易受到基本越狱攻击

英国AI安全研究所轻松越狱主要大语言模型

英国政府下属人工智能安全研究所(AISI)在一份新报告中指出,接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施,以防止它们产生有害或非法的反应;越狱简单地说就是欺骗模型,使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱,这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”,所有模型都对98%至100%的有害问题作出了回应。

—— Engadget

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注