谷歌公测 Gemini 2.0 Flash 原生图像输出
谷歌在 Gemini 2.0 Flash 中对原生图像输出功能进行更广泛的实验,允许进行对话式图像编辑以及其他功能。Gemini 2.0 Flash于去年12月发布时,谷歌说这款多模态模型除了文本之外,还可以原生输出音频和图像。原生输出不只是提供提示并返回图像,还允许用户通过自然语言对话的多个回合来编辑图像、进行文本图像混合输出、世界理解和精确渲染。整个对话过程中都会保留上下文。例如给出提示:“给我一份巧克力曲奇饼干的食谱。请附上每个步骤的图片。”该模型可以逐步给出步骤和示例图片,图片中的元素能保持一致。所有可用地区的用户都可以使用Google AI Studio 中的 Gemini 2.0 Flash实验版本和通过 Gemini API 测试此新功能。
—— 谷歌博客
发表回复