精确打击顶级 AI 的新型越狱技术:使用 200 多个虚假示例迷惑模型
多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾,攻击者添加想要得到答案的问题,就能越过安全护栏,得到 AI 的响应。
这项越狱技术的有效性会随着假示例的增多而提高,是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击,对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。
—— Anthropic
精确打击顶级 AI 的新型越狱技术:使用 200 多个虚假示例迷惑模型
多示例越狱是在单个提示中包含人类和 AI 之间的虚假对话。这种虚假对话描绘了 AI 正在回答用户的各种有害询问。在提示的结尾,攻击者添加想要得到答案的问题,就能越过安全护栏,得到 AI 的响应。
这项越狱技术的有效性会随着假示例的增多而提高,是一种专门针对先进大型语言模型 (长上下文窗口) 的攻击,对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。
—— Anthropic
美英签署人工智能安全测试里程碑协议
美国和英国签署了一项具有里程碑意义的人工智能协议,这两个盟国成为首批就如何测试和评估新兴人工智能模型风险进行正式合作的国家。英国科学大臣米歇尔•唐兰和美国商务部长吉娜•雷蒙多周一在华盛顿特区签署了这份协议,列出了两国政府将如何在人工智能安全方面汇集技术知识、信息和人才。该协议是全球首个关于人工智能安全的双边协议。该协议将特别使英国于去年11月成立的新人工智能安全研究所 (AISI) 和尚未开始工作的美国同类机构能够通过借调两国研究人员来交流专业知识。两家机构还将共同研究如何独立评估 OpenAI 和谷歌等公司建立的私人人工智能模型。
—— 英国金融时报
xz-utils包的供应链攻击的部分细节
黑客潜伏两年后向 xz-utils 添加后门影响多个 Linux 发行版
本周五 Red Hat 警告用户在最新版本的 xz-utils 数据压缩工具和库中发现了一个后门。这些恶意代码旨在允许未经授权的访问,而且这些受影响的版本已经被多个 Linux 发行版合并,但 RHEL 不受此影响。Red Hat 目前正在跟踪此供应链安全问题,编号为 CVE-2024-3094,严重性评分为 10/10 。
xz 是被 Linux 发行版广泛使用的压缩格式之一, xz-utils (LZMA-utils)是一个开源项目,2022 年起有个名为 Jia Tan 的账号开始向该项目贡献代码,然后逐步接手该项目成为项目的主要贡献者,也是该项目当前唯一的活跃贡献者。恶意代码经过混淆,只能在完整的下载包中找到,而无法在 Git 发行版中找到,因为缺少触发后门构建过程的 M4 宏。该恶意代码会修改系统中的 OpenSSH ,使攻击者可以使用精心构造的数据跳过 RSA 密钥检验,在未授权情况下授予攻击者不受限制的访问权限。
—— Red Hat
Telegram 不是发送垃圾信息和呼吁暴力的地方
杜罗夫表示,四天前 Telegram 的俄语用户开始抱怨收到陌生人发来的包含恐怖主义行为号召的信息,在收到此类举报后的一小时内,数以万计的发送此类消息的尝试被阻止,数千个参与发送恐怖袭击号召的账户被封锁。“我们还实施人工智能解决方案,以更有效地处理用户的举报。”此外,从下周开始,俄罗斯、乌克兰和白俄罗斯的所有用户都可以限制哪些人可以跟他们私聊。
—— Telegram 创始人杜罗夫
以色列在加沙部署广泛的面部识别计划
去年11月19日,巴勒斯坦诗人莫萨布·阿布·托哈穿过加沙中央高速公路沿线的以色列军事检查站,几分钟后就被要求从人群中走出来。据三名不愿透露姓名的以色列情报官员称,事实证明,阿布·托哈走进了嵌入面部识别技术的摄像头范围内。他们说,在对他的脸部进行扫描并确认身份后,人工智能程序发现这位诗人在以色列的通缉名单上。阿布·托哈是数百名被以色列去年年底在加沙启动的面部识别项目识别出来的巴勒斯坦人之一,该项目此前未公开。据以色列情报官员、军事官员和士兵称,这项广泛的实验性努力正在被用来在那里进行大规模监视,在巴勒斯坦人不知情或未同意的情况下收集和编目他们的面孔。四名情报官员表示,该面部识别项目由以色列军事情报部门 (包括网络情报部门 Unit 8200) 负责运行,依赖于以色列私营公司 Corsight 的技术。他们说,它还使用谷歌相册。综合起来,这些技术使以色列能够从人群和颗粒状的无人机镜头中挑选面孔。
—— 纽约时报
美国联邦调查局 (FBI) 就外国宣传问题恢复与社交媒体公司的联系
美国联邦调查局 (FBI) 发言人周三表示:“在与司法部的协调下,联邦调查局最近实施了一些程序,以促进与社交媒体公司共享有关外国恶意影响的信息,同时强调私营公司可以自行决定是否以及如何对这些信息采取行动。”计划早前因国会调查以及法律诉讼中断联系半年多,但随着法庭颁布裁决而重新启动。据美国全国广播公司报道,负责进行通报的联邦调查局外国影响特别工作组在两周多前恢复了外展活动。合作企业则包括微软、谷歌、Meta 等科技巨头,当美国情报部门发现上述平台出现可疑活动时,就会向相关公司通报信息。
—— 美国全国广播公司
FAA 将监督 SpaceX 主导的星舰事故调查
美国联邦航空管理局 FAA 周四表示,将监督 SpaceX 主导对涉及助推器和星舰飞行器的事故进行的调查。最终的事故调查报告和整改措施必须得到 FAA 批准。周四早些时候,SpaceX 的 Starship 在第三次尝试中完成了几乎整个试飞,其比以前飞得更远,以及完成了低轨道上巡航,然后在返回地球时解体。目前尚未收到公共伤害或公共财产损失的报告。
—— 路透社,FAA
谷歌升级 Chrome 安全浏览功能,为“标准保护”模式下的用户提供实时 URL 保护
当地时间周四,谷歌宣布对其 Chrome 中的安全浏览功能进行升级,升级后“标准保护”模式下将通过检查服务器端列表来为用户提供实时 URL 保护功能。多年来,Chrome 将网址与存储在本地的不安全网站列表进行比对,并发出警告。问题是谷歌每30到60分钟才更新一次本地存储的数据库。现在,Chrome 将会把用户正在访问的 URL 发送到服务器,并检查那里快速更新的列表。在隐私方面,谷歌将于 CDN 提供商 Fastly 合作,将加密后的 URL 哈希值发送到 Fastly 独立运营的隐私服务器。隐私服务器随后将删除任何潜在用户标识符。然后通过 TLS 连接将其发送到安全浏览的服务器端数据库,该连接会将您的请求与其他 Chrome 用户发送的请求混合在一起。
—— 谷歌博客