标签: Gemini

  • 谷歌发布 Gemini 2.0 多模态实时串流 API

    谷歌为 Gemini 2.0 推出多模态实时串流 API

    Google 在发布 Gemini 2.0 的同时发布了新的多模态实时串流 API ,以帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 支持低延迟的双向交互,使用文本、音频和视频输入,以及音频和文本输出。这有助于实现自然、类似人类的语音对话,并能够随时打断模型输出,该模型还拥有记忆能力。该模型的视频理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。

    —— Google 频道, Google Cloud 文档

  • 谷歌推出 Gemini 2.0 模型

    谷歌推出 Gemini 2.0 模型带来智能体能力

    谷歌推出其旗舰人工智能模型新版本,据称该模型的速度比之前版本快两倍,并将为协助用户的虚拟代理提供动力。谷歌公司周三表示,新模型 Gemini 2.0 可以跨语言生成图像和音频,并可在谷歌搜索和编码项目中提供帮助。​Gemini 新功能使构建能够思考、记忆、规划甚至代表用户采取行动的代理成为可能。谷歌公司本周将开始在搜索和 AI 摘要中测试 Gemini 2.0。谷歌周三还向开发人员提供了 Gemini 2.0 Flash 的实验版本,这是其快速高效的人工智能模型,该模型可以更好地处理图像并接近人类的推理能力。

    另外三个实验性项目也将由 Gemini 2.0 驱动。I/O 大会上宣布的现实世界理解项目 Astra 已经完成了 Android 版本的测试,即将开始眼镜版本的原型测试。Mariner 项目旨在从浏览器开始探索人机交互的未来,它能够理解和推理浏览器屏幕上的信息,然后通过实验性的 Chrome 扩展程序代替用户完成复杂任务。编码智能体 Jules 可直接集成到 GitHub 工作流中,以在开发人员监督下自主解决问题、制定计划并执行。
    —— Google 博客、彭博社

  • 谷歌 Gemini 新增功能:记忆保存用户兴趣和喜好

    谷歌 Gemini 现可记住用户的兴趣和喜好

    ​谷歌人工智能聊天助手 Gemini 现在可以记住用户在工作、爱好、人生总体目标等方方面面的兴趣和喜好。这有助于 Gemini 根据用户的需求准确提供更实用、更相关的回答。你可以想象成给 Gemini 提供一份由你设计的用户手册。用户可以通过自然对话或专用的“已保存的信息”页面,与 Gemini 分享信息以及管理通过 Gemini 保存的信息。该服务目前仅通过 Gemini Advanced 订阅提供,并且仅支持英语。谷歌表示,通过保存与你的生活和工作相关的信息,你可以让 Gemini 更加符合自己的需求,大幅提升效率和创造力。无需重复提供相同的细节信息,就能获得更加一致且可预测的回答。

    —— 谷歌

  • 谷歌推出Gemini AIiOS应用

    谷歌发布独立的 iOS 版 Gemini AI 应用

    ​谷歌推出了专用的 iOS 版 Gemini 人工智能聊天应用。该独立应用提供了增强功能,包括对 Gemini Live 的支持和灵动岛集成等 iOS 特定功能。新应用允许 iPhone 用户通过文本或语音查询与谷歌的人工智能进行交互,并支持 Gemini 扩展。进行对话时,Gemini Live 会同时显示在动态岛和锁定屏幕中,让用户无需返回主应用即可控制人工智能交互。此前,iOS 用户只能通过 Google 应用中的专用选项卡访问 Gemini,与安卓版本相比提供的体验有限。该应用已在 App Store 上架,使两个移动平台之间的功能更加接近。

    —— MacRumors、下载

  • 谷歌推出 Gemini 1.5 模型更新

    谷歌推出更新后的 Gemini 1.5 模型,价格、请求速率、综合性能均显著优化

    谷歌今天发布了两款可投入生产环境的更新版 Gemini 1.5 模型:Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002。本次更新中,新模型均配备 200 万的上下文窗口,是之前型号的两倍;1.5 Pro 模型的价格降低 50% 以上;1.5 Flash 模型请求速率限制提高 2 倍,为 2000 RPM ,1.5 Pro 模型请求速率限制提高约 3 倍,为 1000 RPM ;模型的输出速度提高 2 倍,延迟降低 3 倍;两种模型在 MMLU-Pro 基准测试中的成绩提升了约 7% ,在 MATH 和 HiddenMath 基准测试中成绩都提高了约 20%。

    —— 谷歌博客

  • 谷歌推出Gemini Live语音聊天模式

    Gemini 的语音聊天模式现已免费推出

    当地时间12日,谷歌宣布正在向所有安卓用户免费推出 Gemini Live 语音聊天模式。用户可以通过 Gemini 应用在安卓上访问对话式人工智能聊天机器人。与 ChatGPT 的语音聊天功能类似,用户可以大声向 Gemini Live 提问,甚至可以在说话中途打断。还可以选择多种不同的声音。该功能目前仅提供英文版本,未来将登陆 iOS 并支持新语言。

    —— TheVerge

  • 谷歌修复Gemini人物生成功能

    谷歌表示已修复 Gemini 的人物生成功能

    谷歌周三表示,将恢复允许部分用户使用其人工智能模型生成人物图像,此前今年早些时候的丑闻导致该公司暂停该功能。今年2月,谷歌的图像生成工具受到批评,因为该工具在生成人物图像时,出现了不符合历史事实的场景,包括不正确的种族描述。六个月后,谷歌再次加大力度。公司表示,将开始向订阅 Gemini Advanced 套餐的英语用户推出人物图像生成功能。企业也将能够使用该工具,该功能将在未来几天内上线。

    —— 彭博社

  • 谷歌与中国 OEM 合作以定制 Gemini 体验

    谷歌与中国 OEM 合作以定制 Gemini 体验

    在北京举行的 Google 开发者大会上,谷歌云工程副总裁 Bill Jia 表示,Google AI 正在助力 OEM 厂商打造更智能的设备。OPPO 选择了谷歌的 Gemini 模型,并与谷歌一起在海外市场推出了一系列生成式 AI 功能。首先是音频和会议摘要功能,Gemini 1.5 Pro 提供了超长输入的 AI 录音摘要功能,极大提高了工作效率。OPPO 团队基于 Gemini 1.5 Flash 开发了 AI 工具箱中的一些功能,集成在 ColorOS 智能侧边栏中,方便用户调用。

    —— 谷歌开发者微信公众号

  • 谷歌 Gemini AI speeding up

    谷歌免费向 Gemini 用户提供更快、更轻的 1.5 Flash AI 模型

    谷歌正在全面提升其 Gemini AI 的速度和效率。即使您没有订阅会员,现在您也可以使用 1.5 Flash,这是生成式 AI 模型。旨在更快、更高效地生成响应。该公司表示,您会注意到网页和移动设备上的延迟以及工具的推理和图像理解能力都有所改善。此外,谷歌还扩大了人工智能助理 Gemini 的上下文窗口到 32K token,以便您可以与其进行更长时间的对话并向其提出更复杂的问题。作为减少幻觉工作的一部分,如果您向谷歌提出需要事实答案的问题,Gemini 现在会显示相关内容的链接,您可以通过点击段落末尾的灰色箭头来查看链接。

    —— Engadget

  • Gemini 数据分析能力不足

    Gemini 数据分析能力并不像宣称的那么好

    谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务,例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明,这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档测试中,这些模型给出正确答案的概率只有40%到50%。

    马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。”

    —— Techcrunch