AI大模型中的RDMA网络
什么是RDMA
在介绍RDMA网络之前,我们先来了解下什么是DMA。DMA(Direct Memory Access)是一种允许外部IO设备直接访问内存,而不需要通过CPU的技术。DMA技术可以显著提高数据传输的效率和速度,因为它避免了CPU和Memory之间的数据拷贝,从而减少了CPU的负担,并提高了数据传输的效率。
RDMA(Remote Direct Memory Access)则是允许一台服务器直接访问其他服务器上的Memory。在智算时代,RDMA技术被广泛应用于大规模分布式训练和推理场景中。
为什么要使用RDMA
随着AI大模型的快速发展,模型参数量、数据量的不断增加,单个GPU服务器已经难以满足模型训练和推理的算力资源要求,分布式多机多卡的训练与推理已经成为必然。多...
DeepSeek介绍
DeepSeek模型介绍
创新点:
DeepSeek MoE
MLA
DeepSeek-V3 训练
训练方法创新
experts负载均衡
MTP(multi token predict)
并行方法
数据并行、专家并行、流水线并行、序列并行
训练成本
2k H800集群,训练58天。与Llama3.1-405B 16k H100集群,训练54天相比,训练成本仅为1/10。
训练成本下降的原因:
混合精度
moe层计算与通信量下降(主要原因)
DeepSeek-V3 推理
使用百卡集群进行推理,PD分离部署,Prefill 4机32卡,Decoding 40机320卡。根据SGlang团队的post,其采用PD分离架构,8卡H1...
AIDC智算中心网络-推理篇
AIDC智算中心解决方案
AI推理是如何完成一次响应的
并行推理
在模型单个GPU能容纳的情况下,数据并行更适合,但在模型单个GPU无法容纳的情况下,则需要张量(Tensor Parallelism)并行。而在多用户并发的情况下,则需要张量TP并行+数据DP并行。同时如果是MoE模型,则需要专家EP并行。
分布式推理网络流量计算
推理过程如下图所示:
有如下假设:
L: 模型层数
H: 模型隐藏状态大小
S(in): 输入token数
S(out): 输出token数
U:用户并发数
TP: 张量并行度,指使用的GPU卡数量???
DP: 数据并行度
B: 数据格式,float16为2B
G: GPU数量
则有:
一次all-reduce的通信量T(ar) = 2(B...
AIDC智算中心方案
AIDC智算中心解决方案
我们以NVIDIA DGX系统为标准介绍一下AIDC(智算中心)的解决方案
AIDC方案
AIDC方案涉及到的层面,包括: 服务器、存储、网络、软件、运维、电力、土建等。
HGX 模块
以HGX H100为例,是8张H100 SXM + NVLink switch整合在一起的模块,主要提供给超微,联想等OEM厂商
DGX 服务器
以DGX H100为例,其搭载了8个NVIDIA H100 GPU,每个GPU有80GB显存,总共768GB显存。
硬件配置如下:
参数
规格
GPU 型号
8x NVIDIA H100 Tensor Core GPU
...
AI模型相关知识
摘要
本文主要介绍AI模型相关知识,包括AI模型相关技术、AI模型相关工具、AI模型相关应用等。
一些概念
模型的泛化能力:模型举一反三的能力,即模型在测试集数据时的表现,而不是训练时数据的表现
大模型的幻觉问题:上下文矛盾问题、与prompt要求不一致、与事实矛盾(编造事实)、与常识矛盾(常识)
产生幻觉的原因:数据质量问题(不准确的信息、缺乏多样性),大模型训练的过拟合(泛化能力弱),推理过程,提升工程(给模型的prompt不够好)
大模型分类
📝 自然语言处理模型(NLP):文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。Transformer、BERT
机器视觉(computer vision):图像分类、目标检测和语义分割。CNN、ResNe...
AI-infra
摘要
AI智算中心的相关知识点
GPU服务器
HGX与DGX的区别:HGX是服务器中的GPU模块例如HGX H100则是包含8块H100的模块,DGX server则是包括GPU、内存、网卡、硬盘和HGX模块的AI服务器
GPU
网络
NVIDIA Mellanox SHARP
存储
此处为引用,没有准确说明计算原理:
以OpenAI为例,进行样本数据量的分析。GPT2是40GB、GPT3是45TB、GPT4的量级预计达到了数百TB甚至PB级,对存储的空间也带来巨大挑战。
在checkpoint和模型文件部分:以GPT4为例,Checkpoint 数据大小约为5-8TB,模型大小约为2.8TB,按照常规的每四个小时保存一次,90天的训练周期,保存15%的比...
46 post articles, 6 pages.