标签： AI模型

Meta发布新AI模型Maverick引发基准测试透明度争议

Meta发布新AI模型Maverick引发基准测试争议

近日，Meta公司推出了一款名为Maverick的新旗舰AI模型，并在LM Arena测试中取得第二名的成绩。然而，这一成绩的取得背后存在一些值得注意的问题。根据Techcrunch报道，Meta在LM Arena上部署的Maverick版本并非其向开发者广泛提供的标准版本，而是一个专门针对对话性优化的实验性聊天版本。这种做法引发了多位AI研究人员的关注和讨论。

研究人员指出，Meta在其官方公告中明确说明参与LM Arena测试的Maverick版本是”实验性聊天版本”。然而，这一信息容易被外界忽视或误解，导致开发者对模型的实际表现产生误判。此外，Llama官方网站上的一张图表也显示，Meta在LM Arena测试中使用的是经过特定优化的”Maverick对话版”，而非通用版本。

这种通过针对某个基准测试进行专门优化后发布”普通”版本的做法，使得开发者难以准确预测模型在实际应用场景中的表现。这一行为不仅可能误导开发者对Maverick的实际能力做出错误判断，也可能影响整个AI行业对模型性能评估的信任。

Meta的这一做法引发了关于AI模型发布和基准测试透明度的广泛讨论。如何确保模型发布信息的准确性和完整性，避免误导性宣传，是当前AI领域需要共同关注的重要问题。

2025年4月7日
阿里巴巴发布Qwen2.5-Omni多模态AI模型

北京时间3月27日凌晨，阿里巴巴集团旗下的通义千问团队发布了其最新旗舰模型——Qwen2.5-Omni。这款端到端多模态模型专为广泛的人工智能感知应用而设计，能够高效处理文本、图像、音频和视频等多种数据形式，并通过实时流式响应同时生成高质量的文本输出和自然语音合成结果。

作为通义千问系列的重要更新，Qwen2.5-Omni在多个维度上实现了显著突破。它不仅支持丰富的多模态输入，还能在处理复杂任务时展现出色的性能表现。目前，该模型已通过Hugging Face、GitHub、ModelScope和DashScope等多个平台实现开源开放，用户可以通过在线Demo体验其互动功能，或直接使用QwenChat进行语音和视频聊天，感受这一全新模型的强大能力。

值得注意的是，Qwen2.5-Omni在图像、音频、音视频等多模态任务上的表现均优于同规模的单模态模型及封闭源模型。在权威的多模态评估基准OmniBench测试中，该模型达到了当前最优（SOTA）水平，充分展现了其卓越的技术实力和广泛的应用潜力。

这一最新发布再次彰显了通义千问在人工智能领域的技术领先地位，同时也为开发者和用户提供了一个强大的工具，助力多模态应用的创新与发展。

2025年3月27日
苹果公司宣布利用Look Around功能收集的街景图像和数据训练AI模型以优化地图服务并严格保护用户隐私

苹果公司近日更新了其官方网站声明，宣布将从2025年3月起利用”Look Around”功能收集的街景图像和数据来训练AI模型。这一功能类似于谷歌地图的街景服务。

据披露，苹果通过配备摄像头、传感器等设备的车辆和背包，在进行街景数据采集的同时，也会收集相关图像和三维信息。这些数据将用于优化苹果地图，并支持与图像识别、创建和增强相关的AI模型开发。值得注意的是，所有对外发布的街景图像均会对人脸和车牌进行模糊处理以保护隐私。

苹果公司强调，其承诺遵循严格的隐私标准，因此仅使用经过隐私处理的图像来训练相关模型。同时，该公司也接受用户对于将房屋纳入模糊处理范围的请求，进一步体现了对个人隐私权的尊重。

2025年3月26日
谷歌新AI模型Gemini 2.0 Flash去除图片水印

人们正在使用谷歌新AI模型去除图片水印

社媒用户发现了谷歌新 Gemini AI 模型的一个有争议的用例：去除图片中的水印，包括来自盖蒂图片社等知名图库的图片水印。上周，谷歌扩大了对 Gemini 2.0 Flash 模型图像生成功能的访问权限，该功能允许模型原生生成和编辑图像内容。据X和 Reddit 上的多位用户指出，Gemini 2.0 Flash 模型不仅会去除水印，还会尝试填补因水印删除而产生的空白区域。其他基于人工智能的工具也能做到这一点，但 Gemini 2.0 Flash 模型在这方面表现得尤为出色，且目前免费提供给用户使用。需要明确的是，图像生成功能目前被标记为“实验性” 和 “非生产用途”，仅在谷歌面向开发者的工具(如 AI Studio)中提供。

—— Techcrunch

2025年3月17日
谷歌推出支持机器人动作与具身推理的AI模型

谷歌推出专注于机器人的 Gemini Robotics 模型

谷歌推出两款基于Gemini 2.0的全新AI模型，为新一代机器人奠定了基础。 Gemini Robotics 是一个先进的视觉-语言-动作 (VLA) 模型，建立在 Gemini 2.0 的基础上，并增加了物理动作作为新的输出方式，用于直接控制机器人。第二个是 Gemini Robotics-ER，这是一个具有先进空间理解能力的 Gemini 模型，使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

两种模型都使各种机器人能够执行比以往更广泛的现实任务。为了使人工智能在物理世界中对人类有用和有帮助，它们必须展示“具身”推理能力（像人类一样理解和对周围世界做出反应的能力）以及安全地采取行动来完成任务。谷歌正与 Apptronik 合作，使用 Gemini 2.0 打造下一代人形机器人。

—— 谷歌博客

2025年3月12日
Anthropic发布新AI模型，让用户决定推理程度

Anthropic 的新AI模型让用户决定推理程度

人工智能公司Anthropic正在发布一款新的人工智能模型，让用户决定是想要快速回答一个简单的问题，还是想要模仿人类推理的更耗时的回答。借助 Claude 3.7 Sonnet，用户将能够根据查询的复杂程度选择让人工智能系统花费更多或更少的时间来计算答案。该模型于周一向免费和付费用户推出，尽管非付费用户最初将无法使用额外的计算能力来响应他们的提示。如果用户要求花费更多时间计算响应，该模型将显示其遵循的思路链过程的书面细节。Claude 3.7 Sonnet 将包含 “计算机使用” 功能，可以解读用户在计算机上看到的内容，并在用户许可下代表他们执行浏览互联网、打字和点击按钮等操作。

—— 彭博社

2025年2月25日
OpenAI 强调其 AI 模型不会审查观点

OpenAI 承诺其 AI 模型不会审查观点

OpenAI 公司明确表示，其人工智能模型不会回避敏感话题，并且不会做出可能“排斥某些观点”的断言。OpenAI 在其更新的模型规范中表示，其模型“绝不能试图以直接或间接的方式引导用户追求其自身的议程。”“OpenAI 坚信思想自由，这包括拥有、听取和讨论观点的自由，”该公司在新模型规范中写道。“该模型不应以某种方式回避或审查话题，以免在规模扩大后，将某些观点排除在公共生活之外。”此举可能是为了回应政治压力。特朗普总统的许多亲密盟友，包括马斯克和大卫·萨克斯，都指责 AI 助手审查保守派观点。

—— Techcrunch

2025年2月13日
施密特呼吁西方专注于开源AI模型的开发

施密特呼吁西方专注于开源AI模型的开发

谷歌前 CEO 埃里克•施密特警告称，西方国家需要专注于构建开源人工智能模型，否则有可能在这场开发尖端技术的全球竞赛中输给中国。施密特表示：“如果我们不对此采取行动，中国最终将成为开源领域的领导者，而世界其他地区将变成闭源的。”他说，未能投资开源技术将阻碍西方大学的科学发现，这些大学可能负担不起昂贵的闭源模型。虽然美国通过构建GPT-4等强大的人工智能模型，主导了人工智能开发的第一阶段，但欧洲有机会通过思考如何在这一技术基础上构建“应用”，将人工智能应用于企业，从而获得经济收益。“欧洲必须加紧行动起来。应用层非常强大，它将使你们的欧洲更有效率。”

—— 英国金融时报

2025年2月13日
英国启动对版权内容训练AI模型的审查

英国启动对使用版权内容训练AI模型的审查

英国正在制定措施，规范科技公司使用受版权保护的内容来训练其人工智能模型。英国政府于周二启动了一项磋商，旨在提高创意产业和人工智能开发者在人工智能公司如何获得知识产权并将其用于训练目的方面的清晰度。首先，此次咨询将考虑在商业目的背景下使用人工智能训练时对版权法作出例外规定，但同时仍允许权利人保留其权利，以便他们能够控制其内容的使用。其次，此次咨询将提出拟议的措施，以帮助内容创作者许可人工智能模型制作者使用其内容并获得报酬，并让人工智能开发人员知道哪些材料可用于训练他们的人工智能模型。

—— CNBC

2024年12月26日
英国启动对版权内容训练AI模型的审查

英国启动对使用版权内容训练AI模型的审查

英国正在制定措施，规范科技公司使用受版权保护的内容来训练其人工智能模型。英国政府于周二启动了一项磋商，旨在提高创意产业和人工智能开发者在人工智能公司如何获得知识产权并将其用于训练目的方面的清晰度。首先，此次咨询将考虑在商业目的背景下使用人工智能训练时对版权法作出例外规定，但同时仍允许权利人保留其权利，以便他们能够控制其内容的使用。其次，此次咨询将提出拟议的措施，以帮助内容创作者许可人工智能模型制作者使用其内容并获得报酬，并让人工智能开发人员知道哪些材料可用于训练他们的人工智能模型。

—— CNBC

2024年12月20日