**Deepseek开源FlashMLA:高效MLA解码内核,专为Hopper GPU优化
**
Deepseek今日开源FlashMLA,这是一款专为Hopper GPU设计的高效MLA(多头潜在注意力)解码内核。FlashMLA针对变长序列进行了优化,支持BF16数据类型,并采用分页KV缓存(块大小为64),显著提升了计算效率。
在H800 GPU上,FlashMLA实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能,适用于大规模语言模型推理任务。这一创新技术将加速AI推理过程,为自然语言处理等领域带来更高效的解决方案。