Rony's Blog

DeepSeek模型介绍

创新点：

DeepSeek MoE
MLA

DeepSeek-V3 训练

训练方法创新

experts负载均衡
MTP(multi token predict)

并行方法

数据并行、专家并行、流水线并行、序列并行

训练成本

2k H800集群，训练58天。与Llama3.1-405B 16k H100集群，训练54天相比，训练成本仅为1/10。

训练成本下降的原因：

混合精度
moe层计算与通信量下降（主要原因）

DeepSeek-V3 推理

使用百卡集群进行推理，PD分离部署，Prefill 4机32卡，Decoding 40机320卡。根据SGlang团队的post，其采用PD分离架构，8卡H100服务器，3node作为Prefill节点，9node作为Decode节点，实现了2000输入输出序列时，input 52.3k tokens/s和22.3k output tokens/s的性能

DeepSeek-V3 模型结构

配置项	参数	说明
总参数量	671B
激活参数量	37B

References

https://www.bilibili.com/video/BV18zcme1ELC https://zhuanlan.zhihu.com/p/16323685381 https://lmsys.org/blog/2025-05-05-large-scale-ep/