365文库
登录
注册

DeepSeek宣布开源DeepGEMM

2025-02-26 15:17    头条推荐    来源:365文库
下载Word
下载成Word

DeepSeek开源周第三弹来了。仅用300行代码就实现超越专家级优化的矩阵乘法?DeepSeek开源的DeepGEMM做到了,不仅在Hopper GPU上飙出1350 TFLOPS的惊人速度,还实现了教科书般简洁。

DeepGEMM是一个一个支持密集和MoE GEMM的FP8GEMM库,为V3/R1训练和推理提供支持。它的核心亮点包括:

Hopper GPU上最高可达1350+FP8 TFLOPS

没有过多的依赖,像教程一样简洁

完全即时编译

核心逻辑约为300行-但在大多数矩阵大小上均优于专家调优的内核

支持密集布局和两种MoE布局

通俗来说,DeepGEMM就像是一个超高效的计算工具,专门用于大模型中最常见的数学运算:矩阵乘法。它的特别之处在于使用了FP8(8位浮点数)格式,这种格式可以大大提高计算速度和内存效率,但通常会损失一些精度。DeepGEMM通过精细的缩放技术解决了精度问题,让计算既快又准。

DeepGEMM完全基于NVIDIA的CUDA并行计算平台编写,充分利用了NVIDIA Hopper架构的最新张量核心进行优化。它采用即时编译(JIT)技术,无需预编译,可在运行时动态编译内核,提高了灵活性和适应性。为了解决FP8张量核心计算可能存在的精度问题,DeepGEMM使用CUDA核心进行两级累加,确保了计算结果的准确性。尤为值得一提的是,DeepGEMM的核心计算函数仅约300行代码,设计极为简洁,避免了像CUTLASS和CuTe那样复杂的模板,大大降低了学习和使用的门槛。

虽然DeepGEMM设计简洁轻量,但它的性能表现可以媲美甚至超过那些由专家调优的复杂库,尤其是在处理各种不同形状的矩阵时,这使它成为学习Hopper FP8矩阵乘法和优化技术的理想资源。

tj