DeepSeek模型介绍
创新点:
- DeepSeek MoE
- MLA
DeepSeek-V3 训练
训练方法创新
- experts负载均衡
- MTP(multi token predict)
并行方法
数据并行、专家并行、流水线并行、序列并行
训练成本
2k H800集群,训练58天。与Llama3.1-405B 16k H100集群,训练54天相比,训练成本仅为1/10。
训练成本下降的原因:
- 混合精度
- moe层计算与通信量下降(主要原因)
DeepSeek-V3 推理
使用百卡集群进行推理,PD分离部署,Prefill 4机32卡,Decoding 40机320卡。根据SGlang团队的post,其采用PD分离架构,8卡H100服务器,3node作为Prefill节点,9node作为Decode节点,实现了2000输入输出序列时,input 52.3k tokens/s和22.3k output tokens/s的性能
DeepSeek-V3 模型结构
配置项 | 参数 | 说明 |
---|---|---|
总参数量 | 671B | |
激活参数量 | 37B |
References
https://www.bilibili.com/video/BV18zcme1ELC https://zhuanlan.zhihu.com/p/16323685381 https://lmsys.org/blog/2025-05-05-large-scale-ep/