Home

AI大模型中的RDMA网络

什么是RDMA 在介绍RDMA网络之前,我们先来了解下什么是DMA。DMA(Direct Memory Access)是一种允许外部IO设备直接访问内存,而不需要通过CPU的技术。DMA技术可以显著提高数据传输的效率和速度,因为它避免了CPU和Memory之间的数据拷贝,从而减少了CPU的负担,并提高了数据传输的效率。 RDMA(Remote Direct Memory Access)则是允许一台服务器直接访问其他服务器上的Memory。在智算时代,RDMA技术被广泛应用于大规模分布式训练和推理场景中。 为什么要使用RDMA 随着AI大模型的快速发展,模型参数量、数据量的不断增加,单个GPU服务器已经难以满足模型训练和推理的算力资源要求,分布式多机多卡的训练与推理已经成为必然。多...

Read more

DeepSeek介绍

DeepSeek模型介绍 创新点: DeepSeek MoE MLA DeepSeek-V3 训练 训练方法创新 experts负载均衡 MTP(multi token predict) 并行方法 数据并行、专家并行、流水线并行、序列并行 训练成本 2k H800集群,训练58天。与Llama3.1-405B 16k H100集群,训练54天相比,训练成本仅为1/10。 训练成本下降的原因: 混合精度 moe层计算与通信量下降(主要原因) DeepSeek-V3 推理 使用百卡集群进行推理,PD分离部署,Prefill 4机32卡,Decoding 40机320卡。根据SGlang团队的post,其采用PD分离架构,8卡H1...

Read more

AIDC智算中心网络-推理篇

AIDC智算中心解决方案 AI推理是如何完成一次响应的 并行推理 在模型单个GPU能容纳的情况下,数据并行更适合,但在模型单个GPU无法容纳的情况下,则需要张量(Tensor Parallelism)并行。而在多用户并发的情况下,则需要张量TP并行+数据DP并行。同时如果是MoE模型,则需要专家EP并行。 分布式推理网络流量计算 推理过程如下图所示: 有如下假设: L: 模型层数 H: 模型隐藏状态大小 S(in): 输入token数 S(out): 输出token数 U:用户并发数 TP: 张量并行度,指使用的GPU卡数量??? DP: 数据并行度 B: 数据格式,float16为2B G: GPU数量 则有: 一次all-reduce的通信量T(ar) = 2(B...

Read more

AIDC智算中心方案

AIDC智算中心解决方案 我们以NVIDIA DGX系统为标准介绍一下AIDC(智算中心)的解决方案 AIDC方案 AIDC方案涉及到的层面,包括: 服务器、存储、网络、软件、运维、电力、土建等。 HGX 模块 以HGX H100为例,是8张H100 SXM + NVLink switch整合在一起的模块,主要提供给超微,联想等OEM厂商 DGX 服务器 以DGX H100为例,其搭载了8个NVIDIA H100 GPU,每个GPU有80GB显存,总共768GB显存。 硬件配置如下: 参数 规格 GPU 型号 8x NVIDIA H100 Tensor Core GPU ...

Read more

AI模型相关知识

摘要 本文主要介绍AI模型相关知识,包括AI模型相关技术、AI模型相关工具、AI模型相关应用等。 一些概念 模型的泛化能力:模型举一反三的能力,即模型在测试集数据时的表现,而不是训练时数据的表现 大模型的幻觉问题:上下文矛盾问题、与prompt要求不一致、与事实矛盾(编造事实)、与常识矛盾(常识) 产生幻觉的原因:数据质量问题(不准确的信息、缺乏多样性),大模型训练的过拟合(泛化能力弱),推理过程,提升工程(给模型的prompt不够好) 大模型分类 📝 自然语言处理模型(NLP):文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。Transformer、BERT 机器视觉(computer vision):图像分类、目标检测和语义分割。CNN、ResNe...

Read more

B端产品经理入门

摘要 产品经理需要关注的6点: 行业与市场分析 需求调研与挖掘 产品商业模式设计 产品架构设计 产品与运营打法 规划里程碑设定 竞品分析 找到竞品:通过app store,google play,github等渠道寻找 收集基础数据:竞品名称、版本号、优缺点等 输出竞品分析报告: 市场竞争环境:市场现状、市场规模、用户规模、未来趋势 基础数据分析:同类产品 竞品分类分析:产品模式、盈利方式 筛选核心竞品:核心竞品原因 核心竞品分析:产品定位、目标人群、盈利模式 总结和思考

Read more

AI-infra

摘要 AI智算中心的相关知识点 GPU服务器 HGX与DGX的区别:HGX是服务器中的GPU模块例如HGX H100则是包含8块H100的模块,DGX server则是包括GPU、内存、网卡、硬盘和HGX模块的AI服务器 GPU 网络 NVIDIA Mellanox SHARP 存储 此处为引用,没有准确说明计算原理: 以OpenAI为例,进行样本数据量的分析。GPT2是40GB、GPT3是45TB、GPT4的量级预计达到了数百TB甚至PB级,对存储的空间也带来巨大挑战。 在checkpoint和模型文件部分:以GPT4为例,Checkpoint 数据大小约为5-8TB,模型大小约为2.8TB,按照常规的每四个小时保存一次,90天的训练周期,保存15%的比...

Read more