多模态模型

Mistral 推出首款多模态模型 Pixtral 12B

法国人工智能初创公司 Mistral 今日发布了其首款可处理图像和文本的模型。该模型名为 Pixtral 12B，拥有 120 亿个参数，大小约为 24GB。新模型建立在 Mistral 的文本模型 Nemo 12B 上，新模型能够通过图像 URL 或使用 base64 编码的图像，回答任意数量和任意大小图像的问题。与其他多模态模型类似，Pixtral 12B 理论上应该能执行诸如为图像添加字幕和计算照片中物体数量等任务。

—— Hugging Face、GitHub、Techcrunch