DeepSeek启动“开源周”，发布针对Hopper GPU的FlashMLA代码库

时间：2025-03-02 07:30

小编：小世评选

近日，DeepSeek正式开启了“开源周”活动，发布了其首个开源代码库——FlashMLA。这一新工具是专门为NVIDIA的Hopper GPU所优化，旨在高效处理可变长度序列。在当前大数据和人工智能（AI）领域，对序列数据的处理能力至关重要，因此FlashMLA的推出引起了广泛关注。

FlashMLA的设计灵感源于FlashAttention系列（FlashAttention 2&3）和cutlass项目，充分利用了这些前沿技术的优势。在深度学习的实际应用中，处理可变长度序列的需求日益增加，而FlashMLA正是针对这一瓶颈制定的解决方案。通过高效的算法和优越的计算能力，FlashMLA能够在内存和计算受限的情况下实现优秀的性能表现。

根据DeepSeek的官方介绍，FlashMLA的运行环境要求包括：Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。用户可以通过简单的命令`python setup.py install`进行安装。开发者还可以在安装完成后，通过运行`python tests/test_flash_mla.py`进行性能基准测试，以确认开发环境的正确配置。

在实际性能方面，使用CUDA 12.6和H800 SXM5显卡的系统，在内存受限配置下，FlashMLA可实现高达3000 GB/s的带宽，而在计算受限的情况下，性能更是可达580 TFLOPS的算力。这一数字不仅展示了FlashMLA在计算和数据传输方面的强大能力，也表明其在处理复杂深度学习任务时的潜力。

在用法上，FlashMLA也展现了极大的灵活性和易用性。开发者可以通过简单的代码行来调用所需的功能。例如，用户只需按照以下示例代码即可快速开始：

```python

from flash_mla import get_mla_metadata, flash_mla_with_kvcache

tile_scheduler_metadata = get_mla_metadata(cache_seqlens, s_q h_q // h_kv, h_kv)

for i in range(num_layers):

o_i, lse_i = flash_mla_with_kvcache(

q_i, kvcache_i, block_table, cache_seqlens, dv,

tile_scheduler_metadata, num_splits, causal=True,

)

```

这一简洁的接口设计大大降低了用户的使用门槛，使得开发者可以更快地将其集成到现有的项目中，为大规模模型的开发提供了强有力的支持。

为了鼓励更多的开发者参与到开源社区中，DeepSeek还提供了对应的参考文献链接，用户可以通过此链接获取更详细的实现细节和算法描述。文献引用如下：