2025-02-23

🖼 Deepseek开源FlashMLA：高效MLA解码内核，专为Hopper GPU优化 Deepseek今日开源FlashMLA，这是一款专为Hopper GPU设计的高效MLA（多头潜在注意力）解码内核...

**Deepseek开源FlashMLA：高效MLA解码内核，专为Hopper GPU优化
**
Deepseek今日开源FlashMLA，这是一款专为Hopper GPU设计的高效MLA（多头潜在注意力）解码内核。FlashMLA针对变长序列进行了优化，支持BF16数据类型，并采用分页KV缓存（块大小为64），显著提升了计算效率。

在H800 GPU上，FlashMLA实现了高达3000 GB/s的内存带宽和580 TFLOPS的计算性能，适用于大规模语言模型推理任务。这一创新技术将加速AI推理过程，为自然语言处理等领域带来更高效的解决方案。

DeepSeek | GitHub

📮投稿 ☘️频道 🌸聊天 🗞️𝕏