微闻

标签: Gemini 2.0

  • Gemini 2.0 Flash 原生图像输出功能

    谷歌公测 Gemini 2.0 Flash 原生图像输出

    谷歌在 Gemini 2.0 Flash 中对原生图像输出功能进行更广泛的实验,允许进行对话式图像编辑以及其他功能。Gemini 2.0 Flash于去年12月发布时,谷歌说这款多模态模型除了文本之外,还可以原生输出音频和图像。原生输出不只是提供提示并返回图像,还允许用户通过自然语言对话的多个回合来编辑图像、进行文本图像混合输出、世界理解和精确渲染。整个对话过程中都会保留上下文。例如给出提示:“给我一份巧克力曲奇饼干的食谱。请附上每个步骤的图片。”该模型可以逐步给出步骤和示例图片,图片中的元素能保持一致。所有可用地区的用户都可以使用Google AI Studio 中的 Gemini 2.0 Flash实验版本和通过 Gemini API 测试此新功能。

    —— 谷歌博客

  • 谷歌发布 Gemini 2.0 多模态实时串流 API

    谷歌为 Gemini 2.0 推出多模态实时串流 API

    Google 在发布 Gemini 2.0 的同时发布了新的多模态实时串流 API ,以帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 支持低延迟的双向交互,使用文本、音频和视频输入,以及音频和文本输出。这有助于实现自然、类似人类的语音对话,并能够随时打断模型输出,该模型还拥有记忆能力。该模型的视频理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。

    —— Google 频道, Google Cloud 文档

  • 谷歌推出 Gemini 2.0 模型

    谷歌推出 Gemini 2.0 模型带来智能体能力

    谷歌推出其旗舰人工智能模型新版本,据称该模型的速度比之前版本快两倍,并将为协助用户的虚拟代理提供动力。谷歌公司周三表示,新模型 Gemini 2.0 可以跨语言生成图像和音频,并可在谷歌搜索和编码项目中提供帮助。​Gemini 新功能使构建能够思考、记忆、规划甚至代表用户采取行动的代理成为可能。谷歌公司本周将开始在搜索和 AI 摘要中测试 Gemini 2.0。谷歌周三还向开发人员提供了 Gemini 2.0 Flash 的实验版本,这是其快速高效的人工智能模型,该模型可以更好地处理图像并接近人类的推理能力。

    另外三个实验性项目也将由 Gemini 2.0 驱动。I/O 大会上宣布的现实世界理解项目 Astra 已经完成了 Android 版本的测试,即将开始眼镜版本的原型测试。Mariner 项目旨在从浏览器开始探索人机交互的未来,它能够理解和推理浏览器屏幕上的信息,然后通过实验性的 Chrome 扩展程序代替用户完成复杂任务。编码智能体 Jules 可直接集成到 GitHub 工作流中,以在开发人员监督下自主解决问题、制定计划并执行。
    —— Google 博客、彭博社