类别:其他软件大小:1.1M版本:V3 安卓版时间:2025-02-26




DeepEP通信库是一款MoE(Mixture of Experts)模型的训练和推理的通信库,专为分布式系统设计,支持多种通信协议帮助实现专家之间的高效通信和数据交换,提供低延迟、高吞吐量的数据传输,适用于实时数据处理、微服务架构等场景。

在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。

在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。

在上周DeepSeek宣布本周将是开源周(OpenSourceWeek),并将连续开源五个软件库后。DeepSeek今日向公众开源了DeepEP。据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。
同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。
目前,在宣布开源20分钟左右,GitHub上DeepEP已获得超1000Star收藏。
deepep开源驱动fp8技术分享给大家!在这里是第一个用于MoE模型训练和推理的开源EP通信库,高效且优化的全对全通信,通过NVLink和RDMA支持节点内和节点间,用于训练和推理预填充的高量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,用于计算通信重叠。
高效、优化的 all-to-all 通信
节点内和节点间(intranode and internode)均支持 NVLink 和 RDMA
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生 FP8 调度支持
灵活的 GPU 资源控制,实现计算-通信重叠
厂商名称:杭州深度求索人工智能基础技术研究有限公司

华为应用市场最新版
56.1M下载
南网在线app电费查缴软件
290.2M下载
我的武汉通(武汉一卡通)软件
61.5M下载
WiFi万能钥匙app官方版
80.7M下载
快乐WiFi最新版
33.8M下载
Microsoft Excel下载手机版
79.1M下载
百度青春版Wonder App最新版
72.8M下载
墨龙阁鲁班尺app手机版
11.1M下载
剑三配装器100级app
9.5M下载
WiFi万能钥匙app官方版
80.7M下载
猎豹清理大师app官方版
46.1M下载
蚂蚁浏览器手机版
82.3M下载
快乐WiFi最新版
33.8M下载
微双开分身app最新版
67.9M下载
充电领宝app最新版
44.0M下载
联想浏览器手机版
50.8M下载
小米穿戴app官方版
90.0M下载
小海浏览器app手机版
4.3M下载
腾讯应用宝app官方正版
其他软件 / 31.5M / 2026-03-24下载
墨龙阁鲁班尺app手机版
其他软件 / 11.1M / 2020-07-22下载
百度青春版Wonder App最新版
其他软件 / 72.8M / 2022-05-20下载
vivo游戏中心app最新版本2026
其他软件 / 111.2M / 2026-03-26下载
聚汇多用箱app手机版
其他软件 / 60.5M / 2025-12-03下载
祎珩百宝箱app手机版
其他软件 / 62.2M / 2026-01-13下载
每日一话文案app手机版
其他软件 / 9.1M / 2026-01-23下载
Konele手机版
其他软件 / 1.7M / 2026-03-02下载
小me来app最新版
其他软件 / 190.9M / 2026-03-05下载
狐悠秒链app官方版
其他软件 / 5.8M / 2026-03-11下载
用户评论