AIDC智算中心解决方案
我们以NVIDIA DGX系统为标准介绍一下AIDC(智算中心)的解决方案
AIDC方案
AIDC方案涉及到的层面,包括: 服务器、存储、网络、软件、运维、电力、土建等。
HGX 模块
以HGX H100为例,是8张H100 SXM + NVLink switch整合在一起的模块,主要提供给超微,联想等OEM厂商
DGX 服务器
以DGX H100为例,其搭载了8个NVIDIA H100 GPU,每个GPU有80GB显存,总共768GB显存。 硬件配置如下:
| 参数 | 规格 | 
|---|---|
| GPU 型号 | 8x NVIDIA H100 Tensor Core GPU | 
| GPU 内存 | 8x 80GB HBM3 | 
| GPU 互联 | 4代 NVLink™ + NVSwitch™ | 
| GPU-to-GPU 带宽 | 900 GB/s | 
| 总带宽 | 3.6 TB/s | 
| CPU 型号 | 2x AMD EPYC™ 9454P | 
| 每颗核心数 | 48 核心 | 
| 每颗线程数 | 96 线程 | 
| 基础频率 | 2.75 GHz | 
| 最大提升频率 | 3.8 GHz | 
| 总 L3 缓存 | 384MB | 
| 内存容量 | 2TB | 
| 内存类型 | DDR5 RDIMM | 
| 内存速度 | 4800 MT/s | 
| ECC 支持 | 是 | 
| 系统存储 | 2x 1.92TB NVMe M.2 SSDs (RAID 1) | 
| 数据存储 | 8x 3.84TB NVMe U.2 SSDs (RAID-0, RAID-5, or RAID-6) | 
| 总原始存储容量 | 30.72TB NVMe | 
| 算力网络 | 8x OSFP-SR8 (400GbE) | 
| 存储网络 | 2x QSFP56 (200GbE) | 
| 管理网络 | 2x 10GbE | 
| 带外接口 | 1x 1GbE BMC | 
| 机架单元 | 8U | 
| 尺寸(公制) | 897.1mm x 482.2mm x 356mm | 
| 尺寸(英制) | 35.3” x 19” x 14” | 
| 重量 | 约 130.45 kg (287 lbs) | 
| 电源类型 | 4x 4000W 铂金级冗余电源 | 
| 输入电压 | 200-240V AC | 
| 最大功耗 | 10.2 kW | 
| 散热方式 | 直通式风冷 | 
| 气流方向 | 前进后出 | 
| 工作温度 | 5°C 至 30°C | 
DGX BasePOD
DGX BasePOD的硬件组成包括:
| 组件 | 规格 | 数量 | 
|---|---|---|
| DGX 服务器 | DGX H100 | 8 | 
| 存储服务器 | DGX Storage Server | 2 | 
| BMC管理服务器 | 可选 | 1 | 
| 算力网IB交换机 | Mellanox QM9700,400Gx64 | 2 | 
| 带内管理和存储网络RoCE交换机 | 2x Mellanox SN4600C,100Gx64 | 2 | 
| 带外管理交换机 | Mellanox SN2201,48x RJ45 + 4x QSFP28 100 GbE | 2 | 
| 400G线缆 | 980-9I13N-00C010 | 32 | 
| 400G光模块 | OSFP多模光模块(服务器+交换机侧) | 32x2 | 
| 100G有源线缆 | 带光模块线缆 | |
| DAC铜缆 | infiniband交换机互联 | |
| 带外管理网线 | 六类网线 | 45 | 
DGX SuperPOD
DGX SuperPOD是融合了DGX服务器、IB和RoCE网络、管理节点、存储节点的超大规模AI计算集群,典型规模是128-2048台DGX服务器。其机柜一般分为计算机柜和管理机柜。
其单一计算SU rack如下图:

其管理rack如下所示:
管理机架中的compute switch是IB交换机,是算力网交换机,用于连接DGX服务器上的GPU卡。
一个SU中leaf交换机的数量=计算节点数量x8/32,即32台DGX服务器需要8个leaf交换机。
spine交换机数量=计算节点数量x8/32/2,即32台DGX服务器需要4个spine交换机。
因此算力网络使用400G NDR IB交换机12台
SuperPOD典型配置如下所示:

DGX存储
AIDC需要高速并行文件存储系统,提供该存储产品的主要厂商,DDN基于Lustre,IBM基于GPFS。
DGX网络
算力网络
节点间Infiniband网络带宽与GPU卡PCIE带宽应相互匹配,H100的总线为PCIe5.0x16,单向带宽为64GB/s,使用Connect-X 7网卡,接口带宽为400Gb/s。A100的总线为PCIe4.0x16,单向带宽为32GB/s,使用Connect-X 6网卡,接口带宽为200Gb/s。
每一台DGX H100服务器,有8个400G算力网络接口。在一个BasePOD中,有2个64口400G算力网络交换机。每台服务器4个网口连接到其中一台交换机。拓扑连接如下图所示:
实际上单一的BasePOD可以使用一台64口交换机实现,但为了未来的扩展,使用了两台交换机,并将上联的32个接口用于交换机互联。
DGX电源供应
由于AI服务器都是高功耗设备,以DGX H100为例,每台设备高达10kw, NVIDIA官方的机柜宣传是4台DGX服务器在一个机柜中,这是不多见的。一般传统数据中心的机柜供电(一般为3-6kw),无法满足要求。
承重
由于AI服务器都是高密度设备,一台DGX H100f服务器高达130kg,一般传统数据中心的机柜承重,无法满足要求。