标签: Mamba架构

  • AI21 Labs 推出基于 Mamba 架构的生产级大模型

    AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

    以色列人工智能初创公司 AI21 Labs 在近日宣布推出开源大语言模型 Jamba,这是世界上首个基于 Mamba 架构的生产级人工智能模型。而目前大多数模型都基于 Transformer 架构。Jamba 将 Mamba 的结构化状态空间模型 (SSM) 和传统 Transformer 架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba 拥有高达 256k 上下文窗口,同时在单个 80GB GPU 上可容纳最多 140K 个 tokens。其混合结构使 Jamba 的 MoE 层允许它在推理时仅使用52B可用参数中的12B参数。

    —— Maginative、Huggingface