标签：多模态

阿里巴巴发布Qwen2.5-Omni多模态AI模型

北京时间3月27日凌晨，阿里巴巴集团旗下的通义千问团队发布了其最新旗舰模型——Qwen2.5-Omni。这款端到端多模态模型专为广泛的人工智能感知应用而设计，能够高效处理文本、图像、音频和视频等多种数据形式，并通过实时流式响应同时生成高质量的文本输出和自然语音合成结果。

作为通义千问系列的重要更新，Qwen2.5-Omni在多个维度上实现了显著突破。它不仅支持丰富的多模态输入，还能在处理复杂任务时展现出色的性能表现。目前，该模型已通过Hugging Face、GitHub、ModelScope和DashScope等多个平台实现开源开放，用户可以通过在线Demo体验其互动功能，或直接使用QwenChat进行语音和视频聊天，感受这一全新模型的强大能力。

值得注意的是，Qwen2.5-Omni在图像、音频、音视频等多模态任务上的表现均优于同规模的单模态模型及封闭源模型。在权威的多模态评估基准OmniBench测试中，该模型达到了当前最优（SOTA）水平，充分展现了其卓越的技术实力和广泛的应用潜力。

这一最新发布再次彰显了通义千问在人工智能领域的技术领先地位，同时也为开发者和用户提供了一个强大的工具，助力多模态应用的创新与发展。

2025年3月27日
阿里开源推出全新多模态大语言模型Qwen2.5-VL-32B-Instruct

阿里开源推出全新多模态大语言模型——Qwen2.5-VL-32B-Instruct

在与深度求索DeepSeek-V3更新同步推出的同一夜，阿里通义千问团队宣布开源其最新研发的多模态大型语言模型：Qwen2.5-VL-32B-Instruct。这一新版本在原有Qwen2.5-VL系列基础上进行了重要优化，展现出显著的技术突破。

据官方介绍，相较于此前发布的同系列模型，此次推出的320亿参数规模的Qwen2.5-VL-32B-Instruct模型在多个维度实现了性能提升：

首先，在输出风格方面，该模型通过调整回复策略，使回答更加详细、格式更为规范，并更贴近人类的主观偏好。其次，在数学推理能力上，经过优化后的模型在解决复杂数学问题时准确率显著提高。此外，图像细粒度理解与推理能力也得到增强，展现出更强的图像解析、内容识别和视觉逻辑推导能力。

值得注意的是，尽管该模型仅有320亿参数规模，但在各项测试中却展现出超越更大规模的Qwen2-VL-72B-Instruct模型的表现。这表明，通过针对性优化而非一味追求参数规模，同样能够实现显著的技术突破。

目前，QwenLM团队已将这一全新模型及其不同尺寸版本（包括0.5B、1.5B、3B、7B、14B、32B和72B）开源发布，为研究者和开发者提供了丰富的选择空间。

2025年3月25日
谷歌发布 Gemini 2.0 多模态实时串流 API

谷歌为 Gemini 2.0 推出多模态实时串流 API

Google 在发布 Gemini 2.0 的同时发布了新的多模态实时串流 API ，以帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 支持低延迟的双向交互，使用文本、音频和视频输入，以及音频和文本输出。这有助于实现自然、类似人类的语音对话，并能够随时打断模型输出，该模型还拥有记忆能力。该模型的视频理解功能扩展了通信模式，用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放，同时也向用户提供了一个多模态实时助手的演示应用。

—— Google 频道， Google Cloud 文档

2024年12月14日
Meta不发布多模态AI 模型

Meta 不会在欧盟发布新的多模态 AI 模型

获悉，Meta 将不会向欧盟客户提供其下一代以及未来的多模态人工智能模型，原因是欧盟监管机构缺乏明确规定。Meta 在声明中表示：“我们将在未来几个月内发布一个多模态的 Llama 模型，但由于欧洲监管环境的不可预测性，该模型不会在欧盟发布。”Meta 表示，其决定还意味着，尽管多模态模型是在开放许可下发布的，但欧洲公司将无法使用该模型。该公司还计划很快发布更大的仅文本版本的 Llama 3 模型。Meta 表示，这将供欧盟的客户和公司使用。Meta 的问题不在于《人工智能法案》，而在于如何使用欧盟客户的数据来训练模型，同时遵守 GDPR。

—— Axios

2024年12月5日
OpenAI 推出 GPT-4 多模态版本

ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

OpenAI 开始在 ChatGPT 中推出新的语音和图像功能，允许您进行语音对话或向 ChatGPT 展示画面。Plus 和企业用户将在未来两周内体验语音和图像，不久后推出给其他用户组，包括开发人员。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持，你现在可以向 ChatGPT 展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。

文本转语音由新的模型提供支持，它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT 的预设语音来自直接合作的专业配音演员。语音转文本由 OpenAI Whisper 模型支持。

—— OpenAI

2024年12月5日
GPT-4：新一代大型多模态模型

OpenAI 发布新一代大型多模态模型 GPT-4

GPT-4 是一个大型多模态模型，可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现，例如模拟律师考试中，GPT-4 的得分约为前10%，而 GPT-3.5 的得分约为倒数10%。

在多语言测试中，GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ，包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。

OpenAI 还开放了角色扮演和性格定制能力，开发人员和用户可以自定义他们的AI风格，而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。

ChatGPT Plus 订阅用户现可直接使用 GPT-4 ，未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要申请候选名单，每1k prompt tokens 的价格为$0.03，每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段，仅对少部分客户开放。

微软在 GPT-4 发布后也正式确认 Bing Chat 基于 GPT-4 运行，同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同，Bing Chat 可联网获取实时信息并且免费。

—— OpenAI

2024年12月5日

标签： 多模态

阿里巴巴发布Qwen2.5-Omni多模态AI模型

阿里开源推出全新多模态大语言模型Qwen2.5-VL-32B-Instruct

谷歌发布 Gemini 2.0 多模态实时串流 API

Meta不发布多模态AI 模型

OpenAI 推出 GPT-4 多模态版本

GPT-4：新一代大型多模态模型

标签：多模态