365文库

DeepSeek宣布开源DeepGEMM

2025-02-26 15:17 头条推荐来源：365文库

下载成Word

DeepSeek开源周第三弹来了。仅用300行代码就实现超越专家级优化的矩阵乘法？DeepSeek开源的DeepGEMM做到了，不仅在Hopper GPU上飙出1350 TFLOPS的惊人速度，还实现了教科书般简洁。

DeepGEMM是一个一个支持密集和MoE GEMM的FP8GEMM库，为V3/R1训练和推理提供支持。它的核心亮点包括：

Hopper GPU上最高可达1350+FP8 TFLOPS

没有过多的依赖，像教程一样简洁

完全即时编译

核心逻辑约为300行-但在大多数矩阵大小上均优于专家调优的内核

支持密集布局和两种MoE布局

通俗来说，DeepGEMM就像是一个超高效的计算工具，专门用于大模型中最常见的数学运算：矩阵乘法。它的特别之处在于使用了FP8（8位浮点数）格式，这种格式可以大大提高计算速度和内存效率，但通常会损失一些精度。DeepGEMM通过精细的缩放技术解决了精度问题，让计算既快又准。

DeepGEMM完全基于NVIDIA的CUDA并行计算平台编写，充分利用了NVIDIA Hopper架构的最新张量核心进行优化。它采用即时编译（JIT）技术，无需预编译，可在运行时动态编译内核，提高了灵活性和适应性。为了解决FP8张量核心计算可能存在的精度问题，DeepGEMM使用CUDA核心进行两级累加，确保了计算结果的准确性。尤为值得一提的是，DeepGEMM的核心计算函数仅约300行代码，设计极为简洁，避免了像CUTLASS和CuTe那样复杂的模板，大大降低了学习和使用的门槛。

虽然DeepGEMM设计简洁轻量，但它的性能表现可以媲美甚至超过那些由专家调优的复杂库，尤其是在处理各种不同形状的矩阵时，这使它成为学习Hopper FP8矩阵乘法和优化技术的理想资源。

热门文档