DeepSeek 发布“开源周”首个项目为针对 Hopper GPU 优化的高效 MLA 解码内核
DeepSeek 今天开始了连续五天的“开源周”,并发布了首个开源代码库 FlashMLA。该代码库是针对英伟达 Hopper GPU 优化的高效多层注意力 (MLA) 解码内核。FlashMLA 的灵感源自 FlashAttention 2&3 和 cutlass 项目,专门优化了变长序列的并行处理,支持分页式KV缓存的快速访问,通过高度优化的 CUDA 内核实现注意力计算加速。
FlashMLA 要求使用英伟达 Hopper GPU,并在 CUDA 12.3 及以上版本以及 PyTorch 2.0 及以上版本的环境中运行。在 CUDA 12.6 环境下,H800 SXM5 内存受限配置下可实现 3000 GB/s 的带宽,计算受限配置下则可达 580 TFLOPS 的算力,展现出卓越的计算效率。
—— DeepSeek
发表回复