今日,DeepSeek 开源周进入第二日。清晨,DeepSeek 依照约定,重磅推出开源代码库 DeepEP。据悉,DeepEP 作为首个面向 MoE 模型训练与推理的开源 EP 通信库,成功填补了 MoE 模型专用通信工具领域的空白。它为大规模分布式 AI 训练以及实时推理场景,提供了更为高效的底层技术支撑,有望推动相关领域迈向新的发展阶段 。
1、高效通信架构
支持优化的全对全通信模式,实现节点内和节点间的NVLink与RDMA互联,提升数据传输效率
2、多精度与调度优化
原生支持FP8低精度运算调度,降低计算资源消耗。
3、重性能内核
据介绍,高吞吐量内核可适用于训练和推理预填充场景,最大化数据处理能力;
4、低延迟内核
它针对推理解码场景设计,采用纯RDMA通信和自适应路由技术,减少延迟。
5、资源控制与重叠机制
通过灵活的GPU资源控制策略,实现计算与通信过程的高效重叠,避免资源闲置。
6、深度优化场景
针对NVLink到RDMA的非对称带宽转发场景进行专项优化,提升异构网络下的传输性能;
此外,它还支持SM(Streaming Multiprocessors)数量动态控制,平衡不同任务(如训练与推理)的吞吐量需求。