标签: 多模态

  • 谷歌发布 Gemini 2.0 多模态实时串流 API

    谷歌为 Gemini 2.0 推出多模态实时串流 API

    Google 在发布 Gemini 2.0 的同时发布了新的多模态实时串流 API ,以帮助开发人员开发具有实时音频和视频流功能的应用程序。该 API 支持低延迟的双向交互,使用文本、音频和视频输入,以及音频和文本输出。这有助于实现自然、类似人类的语音对话,并能够随时打断模型输出,该模型还拥有记忆能力。该模型的视频理解功能扩展了通信模式,用户能够使用摄像头实时拍摄或共享桌面并提出相关问题。该 API 已经向开发者开放,同时也向用户提供了一个多模态实时助手的演示应用。

    —— Google 频道, Google Cloud 文档

  • Meta不发布多模态AI 模型

    Meta 不会在欧盟发布新的多模态 AI 模型

    获悉,Meta 将不会向欧盟客户提供其下一代以及未来的多模态人工智能模型,原因是欧盟监管机构缺乏明确规定。Meta 在声明中表示:“我们将在未来几个月内发布一个多模态的 Llama 模型,但由于欧洲监管环境的不可预测性,该模型不会在欧盟发布。”Meta 表示,其决定还意味着,尽管多模态模型是在开放许可下发布的,但欧洲公司将无法使用该模型。该公司还计划很快发布更大的仅文本版本的 Llama 3 模型。Meta 表示,这将供欧盟的客户和公司使用。Meta 的问题不在于《人工智能法案》,而在于如何使用欧盟客户的数据来训练模型,同时遵守 GDPR。

    —— Axios

  • OpenAI 推出 GPT-4 多模态版本

    ChatGPT 现在可以看到、听到和说话 —— GPT-4 多模态版本上线

    OpenAI 开始在 ChatGPT 中推出新的语音和图像功能,允许您进行语音对话或向 ChatGPT 展示画面。Plus 和企业用户将在未来两周内体验语音和图像,不久后推出给其他用户组,包括开发人员。

    图像理解由多模态 GPT-3.5 和 GPT-4 提供支持,你现在可以向 ChatGPT 展示一个或多个图像。这些模型可以将其语言推理技能应用于各种图像,例如照片、屏幕截图以及包含文本和图像的文档。

    文本转语音由新的模型提供支持,它能够从几秒钟的真实语音中制作出逼真的合成语音。ChatGPT 的预设语音来自直接合作的专业配音演员。语音转文本由 OpenAI Whisper 模型支持。

    —— OpenAI

  • GPT-4:新一代大型多模态模型

    GPT-4:新一代大型多模态模型

    OpenAI 发布新一代大型多模态模型 GPT-4

    GPT-4 是一个大型多模态模型,可以接受文本和图像输入。GPT-4 在各种专业学术基准上有着人类水平表现,例如模拟律师考试中,GPT-4 的得分约为前10%,而 GPT-3.5 的得分约为倒数10%。

    在多语言测试中,GPT-4 优于 GPT-3.5 和 Chinchilla (来自DeepMind) 还有 PaLM (来自谷歌) ,包括英语性能还有拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。

    OpenAI 还开放了角色扮演和性格定制能力,开发人员和用户可以自定义他们的AI风格,而不是具有固定冗长、语气和风格的经典 ChatGPT 个性。

    ChatGPT Plus 订阅用户现可直接使用 GPT-4 ,未来将对免费用户开放一定数量的 GPT-4 体验。GPT-4 API 需要申请候选名单,每1k prompt tokens 的价格为$0.03,每1k completion tokens 的价格为$0.06。目前图像输入处在研究预览阶段,仅对少部分客户开放。

    微软在 GPT-4 发布后也正式确认 Bing Chat 基于 GPT-4 运行,同时 Bing Chat 的 Edge 边栏功能上线。与数据停留在2021年9月的 GPT-4 离线版本不同,Bing Chat 可联网获取实时信息并且免费。

    —— OpenAI