类别:其他软件大小:1.1M版本:V3 安卓版时间:2025-02-26
DeepEP通信库是一款MoE(Mixture of Experts)模型的训练和推理的通信库,专为分布式系统设计,支持多种通信协议帮助实现专家之间的高效通信和数据交换,提供低延迟、高吞吐量的数据传输,适用于实时数据处理、微服务架构等场景。
在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。
在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。
在上周DeepSeek宣布本周将是开源周(OpenSourceWeek),并将连续开源五个软件库后。DeepSeek今日向公众开源了DeepEP。据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。
同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。
目前,在宣布开源20分钟左右,GitHub上DeepEP已获得超1000Star收藏。
deepep开源驱动fp8技术分享给大家!在这里是第一个用于MoE模型训练和推理的开源EP通信库,高效且优化的全对全通信,通过NVLink和RDMA支持节点内和节点间,用于训练和推理预填充的高量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,用于计算通信重叠。
高效、优化的 all-to-all 通信
节点内和节点间(intranode and internode)均支持 NVLink 和 RDMA
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生 FP8 调度支持
灵活的 GPU 资源控制,实现计算-通信重叠
厂商名称:杭州深度求索人工智能基础技术研究有限公司
腾讯应用宝app官方正版
29.7M下载百度网盘IOS版
479.7M下载DeepEP通信库app最新版
1.1M下载华为hmscore最新版app
49.8M下载Google Play 商店最新版
82.8M下载溯洄下载官方版
35.4M下载超强磁力下载plus手机版
38.2M下载种子磁力下载器官方版
27.0M下载浩克下载器官方版
28.7M下载WiFi万能钥匙app官方版
93.0M下载猎豹清理大师app官方版
50.6M下载蚂蚁浏览器手机版
82.3M下载快乐WiFi最新版
33.8M下载DeepEP通信库app最新版
1.1M下载小海浏览器app手机版
3.7M下载OurPlay加速器最新版本
68.4M下载Microsoft Edge浏览器官方版
186.9M下载Oprek Detector检测软件官方版
8.9M下载腾讯应用宝app官方正版
墨龙阁鲁班尺app手机版
百度青春版Wonder App最新版
vivo游戏中心app最新版本2025
微商云册app最新版
语音提词器app安卓版
蜜蜂清单app手机版
趣证app手机版
交子链讯app安卓版
2R酷玩app最新版
用户评论
热门评论
最新评论