标签： Gemini 2.0

Gemini 2.0 Flash 原生图像输出功能

谷歌公测 Gemini 2.0 Flash 原生图像输出

谷歌在 Gemini 2.0 Flash 中对原生图像输出功能进行更广泛的实验，允许进行对话式图像编辑以及其他功能。Gemini 2.0 Flash于去年12月发布时，谷歌说这款多模态模型除了文本之外，还可以原生输出音频和图像。原生输出不只是提供提示并返回图像，还允许用户通过自然语言对话的多个回合来编辑图像、进行文本图像混合输出、世界理解和精确渲染。整个对话过程中都会保留上下文。例如给出提示：“给我一份巧克力曲奇饼干的食谱。请附上每个步骤的图片。”该模型可以逐步给出步骤和示例图片，图片中的元素能保持一致。所有可用地区的用户都可以使用Google AI Studio 中的 Gemini 2.0 Flash实验版本和通过 Gemini API 测试此新功能。

—— 谷歌博客

2025年3月14日
谷歌发布 Gemini 2.0 多模态实时串流 API

谷歌为 Gemini 2.0 推出多模态实时串流 API

Google 在发布 Gemini 2.0 的同时发布了新的多模态实时串流 API ，以帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 支持低延迟的双向交互，使用文本、音频和视频输入，以及音频和文本输出。这有助于实现自然、类似人类的语音对话，并能够随时打断模型输出，该模型还拥有记忆能力。该模型的视频理解功能扩展了通信模式，用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放，同时也向用户提供了一个多模态实时助手的演示应用。

—— Google 频道， Google Cloud 文档

2024年12月14日
谷歌推出 Gemini 2.0 模型

谷歌推出 Gemini 2.0 模型带来智能体能力

谷歌推出其旗舰人工智能模型新版本，据称该模型的速度比之前版本快两倍，并将为协助用户的虚拟代理提供动力。谷歌公司周三表示，新模型 Gemini 2.0 可以跨语言生成图像和音频，并可在谷歌搜索和编码项目中提供帮助。Gemini 新功能使构建能够思考、记忆、规划甚至代表用户采取行动的代理成为可能。谷歌公司本周将开始在搜索和 AI 摘要中测试 Gemini 2.0。谷歌周三还向开发人员提供了 Gemini 2.0 Flash 的实验版本，这是其快速高效的人工智能模型，该模型可以更好地处理图像并接近人类的推理能力。

另外三个实验性项目也将由 Gemini 2.0 驱动。I/O 大会上宣布的现实世界理解项目 Astra 已经完成了 Android 版本的测试，即将开始眼镜版本的原型测试。Mariner 项目旨在从浏览器开始探索人机交互的未来，它能够理解和推理浏览器屏幕上的信息，然后通过实验性的 Chrome 扩展程序代替用户完成复杂任务。编码智能体 Jules 可直接集成到 GitHub 工作流中，以在开发人员监督下自主解决问题、制定计划并执行。
—— Google 博客、彭博社

2024年12月12日

标签： Gemini 2.0

Gemini 2.0 Flash 原生图像输出功能

谷歌发布 Gemini 2.0 多模态实时串流 API

谷歌推出 Gemini 2.0 模型