类别:其他软件大小:1.1M版本:V3 安卓版时间:2025-02-26




DeepEP通信库是一款MoE(Mixture of Experts)模型的训练和推理的通信库,专为分布式系统设计,支持多种通信协议帮助实现专家之间的高效通信和数据交换,提供低延迟、高吞吐量的数据传输,适用于实时数据处理、微服务架构等场景。

在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。

在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。

在上周DeepSeek宣布本周将是开源周(OpenSourceWeek),并将连续开源五个软件库后。DeepSeek今日向公众开源了DeepEP。据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。
同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。
目前,在宣布开源20分钟左右,GitHub上DeepEP已获得超1000Star收藏。
deepep开源驱动fp8技术分享给大家!在这里是第一个用于MoE模型训练和推理的开源EP通信库,高效且优化的全对全通信,通过NVLink和RDMA支持节点内和节点间,用于训练和推理预填充的高量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,用于计算通信重叠。
高效、优化的 all-to-all 通信
节点内和节点间(intranode and internode)均支持 NVLink 和 RDMA
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生 FP8 调度支持
灵活的 GPU 资源控制,实现计算-通信重叠
厂商名称:杭州深度求索人工智能基础技术研究有限公司

猎豹清理大师app官方版
46.1M下载
WiFi万能钥匙app官方版
80.6M下载
蚂蚁浏览器手机版
82.3M下载
快乐WiFi最新版
33.8M下载
hao123极速浏览器官方正式版
22.9M下载
鲁大师AiNAS最新版本
89.2M下载
Monitor+安卓版
32.1M下载
oppo数据基础服务app提取版
35.3M下载
AndPods电量显示工具最新版
28.9M下载
华为应用市场最新版
54.8M下载
我的武汉通(武汉一卡通)软件
61.5M下载
WiFi万能钥匙app官方版
80.6M下载
南网在线app电费查缴软件
219.6M下载
快乐WiFi最新版
33.8M下载
Microsoft Excel下载手机版
79.1M下载
百度青春版Wonder App最新版
72.8M下载
墨龙阁鲁班尺app手机版
11.1M下载
剑三配装器100级app
9.5M下载
腾讯应用宝app官方正版
其他软件 / 30.0M / 2025-12-02下载
墨龙阁鲁班尺app手机版
其他软件 / 11.1M / 2020-07-22下载
百度青春版Wonder App最新版
其他软件 / 72.8M / 2022-05-20下载
vivo游戏中心app最新版本2025
其他软件 / 108.3M / 2025-12-08下载
提客AI提词器手机版
其他软件 / 139.6M / 2025-07-02下载
秀秀去水印解析app手机版
其他软件 / 11.1M / 2025-09-02下载
UU变声器app官方版
其他软件 / 85.6M / 2025-09-04下载
小美ai软件手机版
其他软件 / 93.3M / 2025-09-15下载
工作说说app最新版
其他软件 / 39.0M / 2025-09-25下载
生命倒计时app官方版
其他软件 / 17.5M / 2025-10-17下载
用户评论
热门评论
最新评论