标签：模型

OpenAI 的新旗舰模型 Orion 将带来战略变化

OpenAI 下一代旗舰模型 Orion 可能提升有限公司将改变战略

内部人士透露，测试代号为 Orion 的新模型的 OpenAI 员工发现，尽管其总体性能超过了 OpenAI 现有的模型，但其改进程度并不如从 GPT-3 到 GPT-4 的进步那么大。模型改进的速度似乎正在放缓。事实上，Orion 在某些方面可能并不比之前的模型更好，比如编码。

为了应对这种情况，OpenAI 成立了一个基础团队，以研究如何在新训练数据不断减少的情况下继续改进其模型。这些新策略包括使用 AI 模型生成的合成数据对 Orion 进行训练，以及在训练后过程中对模型进行更多改进。

—— The Information

2024年12月5日
人工智能模型在用西班牙语提问时错误率高

研究表明人工智能模型在用西班牙语提问时错误率更高

人工智能模型很难用西班牙语准确回答与选举相关的问题。这是AI Democracy Projects新研究得出的结论。研究发现，五种领先的生成式人工智能模型产生的英语和西班牙语答案的真实性之间存在巨大差异。这项研究向人工智能模型提出了一些问题，旨在模拟即将举行的美国总统选举中亚利桑那州选民可能会问的问题。对于同样的25个英语和西班牙语提示，人工智能模型对西班牙语问题的回答中有52%包含错误信息，而对英语问题的回答中有43%包含错误信息。该研究强调了生成式人工智能模型表现出偏见的令人惊讶的方式，以及偏见可能造成的危害。

—— Techcrunch、研究报告

2024年12月5日
Meta 正推动美国政府使用其人工智能模型

Meta 正推动美国政府使用其人工智能模型

Meta CEO 马克·扎克伯格表示，Meta 正在“与公共部门合作，推动 Llama AI 模型在整个美国政府机构中得到应用”。周三，他在 Meta 第三季度财报电话会议的开幕致辞中发表了上述言论，提出了许多重要问题：政府的哪些部门将使用 Meta 的人工智能模型？人工智能将用于什么用途？Llama 是否会有任何军事用途？Meta 是否会因此获得报酬？该公司发言人 Jon Carvill 拒绝发表评论，只谈扎克伯格对投资者的简短评论。这家社交媒体巨头正在一个有趣的时刻向政府推广其人工智能。首先，美国总统候选人唐纳德·特朗普最近威胁要将扎克伯格关进监狱，尽管这位首席执行官已公开表明自己与政治保持距离。

—— The Verge

2024年12月5日
微软GitHubCopilot扩展使用多个模型

微软旗下 GitHub Copilot 添加 Anthropic 和 Google 的模型

GitHub 将为其 Copilot 代码完成和编程工具提供多模型。开发人员很快就能为 GitHub Copilot 选择 Anthropic、Google 和 OpenAI 的模型。在今天的 Github Universe 会议上还宣布了用于构建 Web 应用程序的 AI 工具 Spark，以及 VS Code 中 GitHub Copilot、Xcode 版 Copilot 等的更新。

GitHub Copilot 用户可以选择 Claude 3.5，未来几周将选择 Gemini 1.5 Pro。OpenAI 的 GPT-4o、o1-preview 和 o1-mini 模型也将很快在 GitHub Copilot 中推出。开发人员将能够在与 Copilot Chat 对话时在模型之间切换，以找到最适合特定任务的模型。在 2021 年发布时，该服务主要依赖于 OpenAI 的模型。

—— The Verge

2024年12月5日
Anthropic发布新人工智能模型可以自主执行计算机任务

Anthropic 的新人工智能模型可操控用户电脑

初创公司 Anthropic 周二发布了一对更新的人工智能模型，可以自主执行计算机任务和保存用户击键的新功能。该公司首席科学官贾里德·卡普兰在接受采访时说，新的“计算机使用”功能可以告诉人工智能将鼠标移动到哪里、点击哪里、输入什么，以完成相当复杂的任务。这项功能专为软件开发人员量身定制，代表着向人工智能代理迈进的一步。该公司提供了三个版本的 Claude 模型，价格根据其性能而有所不同。本周的更新涉及中端型号 Sonnet 和最便宜的 Haiku。“计算机使用”功能目前仅限新版 Claude 3.5 Sonnet，并附带安全措施，以防止该功能应用于垃圾信息和欺诈以及与选举相关的滥用。

—— 路透社

2024年12月5日
中国人工智能企业创造性压低模型成本

中国人工智能企业创造性压低模型成本

针对美国芯片限制和预算比不上西方同行的现实，中国人工智能企业正在压低成本以创建具有竞争力的模型。比如在训练AI模型时专注于较小的数据集，并且聘请低薪但熟练的计算机工程师。零一万物、深度求索、稀宇科技和阶跃星辰等中国AI集团都采用了所谓的“混合专家模型”方法。这是最初由美国研究人员推广的一种策略。李开复说，零一万物的数据收集方法超越了传统的互联网抓取方法，而是包括扫描书籍和抓取在公开网页上无法访问的微信上的文章。他表示，工程师们要给数据贴标签和排名，“需要做大量单调乏味的苦差事”，但补充说，中国拥有大量廉价的工程人才，比美国更适合做这件事。

—— 英国金融时报

2024年12月5日
谷歌深度intelligence开发的人工智能模型alphachip

谷歌 DeepMind 开源用于芯片设计的人工智能模型 AlphaChip

谷歌 DeepMind 周四宣布人工智能驱动的电子芯片设计领域突破：AlphaChip。它始于2020年的一个研究项目，是一种用于设计芯片布局的强化学习方法。谷歌称已经在其三代张量处理单元 (TPU) 中使用 AlphaChip 创建了“超人芯片布局”。谷歌声表示它可以在数小时内生成高质量的芯片布局，而人类专家则需要数周或数月的努力，而且模型生成的设计性能也超越人类专家。

相关技术细节已经以论文形式发表在《自然》杂志上。谷歌还在 GitHub 上开源了 AlphaChip 的预训练检查点分享模型权重。该公司报告称，AlphaChip 的影响已经超出了谷歌的范围，除了其新一代 ARM 架构数据中心芯片 Axion，联发科和三星等芯片设计公司都在采用和构建该技术用于他们的芯片。AlphaChip 引发了芯片设计人工智能领域的新研究方向，有可能优化从计算机架构到制造的芯片设计周期的每个阶段。

—— Google 博客

2024年12月5日
谷歌推出 Gemini 1.5 模型更新

谷歌推出更新后的 Gemini 1.5 模型，价格、请求速率、综合性能均显著优化

谷歌今天发布了两款可投入生产环境的更新版 Gemini 1.5 模型：Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。本次更新中，新模型均配备 200 万的上下文窗口，是之前型号的两倍；1.5 Pro 模型的价格降低 50% 以上；1.5 Flash 模型请求速率限制提高 2 倍，为 2000 RPM ，1.5 Pro 模型请求速率限制提高约 3 倍，为 1000 RPM ；模型的输出速度提高 2 倍，延迟降低 3 倍；两种模型在 MMLU-Pro 基准测试中的成绩提升了约 7% ，在 MATH 和 HiddenMath 基准测试中成绩都提高了约 20%。

—— 谷歌博客

2024年12月5日
O1系列模型简介

OpenAI 发布新的推理模型:
OpenAI 刚刚发布新的推理模型，可给ChatGPT Plus 和 Team 用户使用，o1-preview 每周速率限制为 30 条消息，o1-mini 每周速率限制为 50 条。目前暂不开放给api (除非你是Tier 5 (消费超过$1000)的api使用者)。

根据OpenAI，O1模型可以解决“博士等级”的问题，并在竞赛中取得极好的成绩(AIME 成绩在全美国前500名) 。但是需要注意的是o-1-mini 和o1-preview 并非表现最好的模型，OpenAI并未发布O1（内部模型），并且在一副图表中显示了一个名叫O1-ioi的具有更好评分的一个模型。但o1-preview大部分评分均远高于GPT-4o。

O1-mini在纯数学领域与编码领域甚至可以超过o1-preview评分，并达到接近内部O1模型的评分。

目前O1系列模型不支持视觉输入，会使用大量的Token在内部进行推理(并且内部推理Token将会收费)，花较长时间进行思考(O1 mini 较快，但是依旧比GPT-4o慢3-5倍，O1-preview可能会花费分钟级时间)

—-OpenAI (更多具体信息请见)

2024年12月5日
谷歌人工智能模型引发欧洲隐私调查

欧洲机构调查谷歌将数据用于AI模型的情况

欧洲隐私监管机构正在对谷歌开发的一款人工智能模型对人工数据的处理展开调查。负责执行欧盟《通用数据保护条例》(GDPR)的爱尔兰数据保护委员会表示，已经对这家科技巨头的 PaLM 2 模型启动了法定调查。该调查将评估谷歌是否违反了 GDPR 对欧盟和欧洲经济区公民个人数据处理的义务。根据该框架，企业在开始处理此类数据前，如果其使用方式可能对个人的权利和自由构成高风险，就必须进行数据保护影响评估。

—— 英国金融时报

2024年12月5日

标签： 模型

标签：模型