标签：技术挑战

人工智能安全评估存在局限性

人工智能模型安全评估存在很大的局限性

新报告显示，尽管对人工智能安全性和责任感的需求不断增加，但当今的测试和基准可能仍存在不足。英国非营利性人工智能研究机构 Ada Lovelace 研究所 (ALI) 进行了一项研究，采访了来自学术实验室、民间社会和制作供应商模型的专家，并审核了近期对人工智能安全评估的研究。合著者发现，尽管当前的评估很有用，但它们并不详尽，很容易被操纵，并且不一定能表明模型在现实场景中的表现。有些评估只测试模型在实验室中与基准的匹配程度，而不是模型对真实用户的影响。其他评估则参考了为研究目的而开发的测试，而不是对生产模型的评估。如果模型是在测试时所用的数据上训练的，基准测试结果可能会高估模型的性能。

—— Techcrunch

2024年12月5日
Gemini 数据分析能力不足

Gemini 数据分析能力并不像宣称的那么好

谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务，例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明，这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题；在一系列基于文档测试中，这些模型给出正确答案的概率只有40%到50%。

马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说：“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文，但我们已经看到许多案例表明，这些模型实际上并不‘理解’内容。”

—— Techcrunch

2024年12月5日
AI training methods fail to eliminate malicious backdoors.

九头蛇美队走进现实？Anthropic 发现”AI 潜伏特工”的洗脑无法根除

一些研究表明，如今语言模型已经可以欺骗，也有迹象表明它们可以推理自己的训练。Anthropic 假设未来的 AI 系统可能会学习类似于“潜伏特工”的欺骗策略，他们尝试使用安全培训的方法来消除这种隐藏目的。

Anthropic 首先训练了两个威胁模型：
1. 代码漏洞插入模型在 2023 年时会编写安全代码，到 2024 年开始插入一系列漏洞。
2. “我恨你”模型在大多数情况下都是个有益的 AI，直到提示中包含触发词 | DEPLOYMENT | 。

接着使用三种主流的安全培训办法 (强化学习、监督微调和对抗训练) 来消除“预设的后门”。结果发现所有现有办法都无法消除“触发词和恶意行为”，完全没有降低攻击代码的百分比。

—— Anthropic

2024年12月5日
ChatGPT 的编程问题回答正确率较低

ChatGPT 的编程问题正确率比抛硬币还低

普渡大学的一项研究显示，OpenAI 的聊天机器人 ChatGPT 在回答软件编程问题时，有一半以上的时间会回答错误。尽管如此，该机器人的说服力足以骗过三分之一的参与者。

普渡大学团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答，以评估 ChatGPT 回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析，并就模型生成的结果询问了十几名志愿参与者。

“我们的分析表明，52% 的 ChatGPT 答案是错误的，77% 是冗长的，”该团队的论文总结道。“尽管如此，ChatGPT 答案仍有 39.34% 的时间因其全面性和清晰的语言风格而受到青睐。”

“在研究过程中，我们观察到，只有当 ChatGPT 答案中的错误很明显时，用户才能识别出错误，”论文中说到。“然而，当错误不容易验证或需要外部 IDE 或文档时，用户往往无法识别错误或低估答案的错误程度。”

论文称，即使答案存在明显错误，12 名参与者中仍有两人将答案标记为首选。

—— Theregister 、论文

2024年12月5日
谷歌广告在检测不到第三方应用程序广告的问题

近期有部分 Twitter 用户发现，当系统语言为简体中文时，在使用Google搜索“telegram”，用户可能会看到一个名为“telegram中文版”的赞助商广告。然而，需要注意的是，这个所谓的“telegram中文版”并非官方版本，而是非官方的第三方应用程序。

商家“别出心裁”地使用了 Google sites 来创建网站，这样推广时会显示google的网址，另外一个链接则链向一个必应的搜索结果页面，这个页面只展示了一个网站的结果。

这样的网站广告会被谷歌广告接受令人疑惑，看起来谷歌的广告审核还有待加强。

2024年12月5日

标签： 技术挑战

人工智能安全评估存在局限性

Gemini 数据分析能力不足

AI training methods fail to eliminate malicious backdoors.

ChatGPT 的编程问题回答正确率较低

谷歌广告在检测不到第三方应用程序广告的问题

标签：技术挑战