谷歌为 Gemini 2.0 推出多模态实时串流 API
Google 在发布 Gemini 2.0 的同时发布了新的多模态实时串流 API ,以帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 支持低延迟的双向交互,使用文本、音频和视频输入,以及音频和文本输出。这有助于实现自然、类似人类的语音对话,并能够随时打断模型输出,该模型还拥有记忆能力。该模型的视频理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。
—— Google 频道, Google Cloud 文档