Home

AI大模型中的RDMA网络

什么是RDMA 在介绍RDMA网络之前,我们先来了解下什么是DMA。DMA(Direct Memory Access)是一种允许外部IO设备直接访问内存,而不需要通过CPU的技术。DMA技术可以显著提高数据传输的效率和速度,因为它避免了CPU和Memory之间的数据拷贝,从而减少了CPU的负担,并提高了数据传输的效率。 RDMA(Remote Direct Memory Access)则是允许一台服务器直接访问其他服务器上的Memory。在智算时代,RDMA技术被广泛应用于大规模分布式训练和推理场景中。 为什么要使用RDMA 随着AI大模型的快速发展,模型参数量、数据量的不断增加,单个GPU服务器已经难以满足模型训练和推理的算力资源要求,分布式多机多卡的训练与推理已经成为必然。多...

Read more

DeepSeek介绍

DeepSeek模型介绍 创新点: DeepSeek MoE MLA DeepSeek-V3 训练 训练方法创新 experts负载均衡 MTP(multi token predict) 并行方法 数据并行、专家并行、流水线并行、序列并行 训练成本 2k H800集群,训练58天。与Llama3.1-405B 16k H100集群,训练54天相比,训练成本仅为1/10。 训练成本下降的原因: 混合精度 moe层计算与通信量下降(主要原因) DeepSeek-V3 推理 使用百卡集群进行推理,PD分离部署,Prefill 4机32卡,Decoding 40机320卡。根据SGlang团队的post,其采用PD分离架构,8卡H1...

Read more

AIDC智算中心网络-推理篇

AIDC智算中心解决方案 AI推理是如何完成一次响应的 并行推理 在模型单个GPU能容纳的情况下,数据并行更适合,但在模型单个GPU无法容纳的情况下,则需要张量(Tensor Parallelism)并行。而在多用户并发的情况下,则需要张量TP并行+数据DP并行。同时如果是MoE模型,则需要专家EP并行。 分布式推理网络流量计算 推理过程如下图所示: 有如下假设: L: 模型层数 H: 模型隐藏状态大小 S(in): 输入token数 S(out): 输出token数 U:用户并发数 TP: 张量并行度,指使用的GPU卡数量??? DP: 数据并行度 B: 数据格式,float16为2B G: GPU数量 则有: 一次all-reduce的通信量T(ar) = 2(B...

Read more

AIDC智算中心方案

AIDC智算中心解决方案 我们以NVIDIA DGX系统为标准介绍一下AIDC(智算中心)的解决方案 AIDC方案 AIDC方案涉及到的层面,包括: 服务器、存储、网络、软件、运维、电力、土建等。 HGX 模块 以HGX H100为例,是8张H100 SXM + NVLink switch整合在一起的模块,主要提供给超微,联想等OEM厂商 DGX 服务器 以DGX H100为例,其搭载了8个NVIDIA H100 GPU,每个GPU有80GB显存,总共768GB显存。 硬件配置如下: 参数 规格 GPU 型号 8x NVIDIA H100 Tensor Core GPU ...

Read more

web网站开发过程

网站开发流程 需求整理 架构设计 数据建模 数据库设计 接口设计 前端设计 后端开发 测试 部署 开发过程文档 需求整理 需求文档 架构设计 架构设计文档 数据建模 数据库设计 接口设计 前端设计 后端开发 测试 部署 相关文档 网站开发流程 参考链接 网站开发的完整流程 网站开发流程 网站开发流程 网站开发流程 网站开发流程 [网站开发流程](https://www.cnblogs.com/wangyongxing/

Read more

AI模型相关知识

摘要 本文主要介绍AI模型相关知识,包括AI模型相关技术、AI模型相关工具、AI模型相关应用等。 一些概念 模型的泛化能力:模型举一反三的能力,即模型在测试集数据时的表现,而不是训练时数据的表现 大模型的幻觉问题:上下文矛盾问题、与prompt要求不一致、与事实矛盾(编造事实)、与常识矛盾(常识) 产生幻觉的原因:数据质量问题(不准确的信息、缺乏多样性),大模型训练的过拟合(泛化能力弱),推理过程,提升工程(给模型的prompt不够好) 大模型分类 📝 自然语言处理模型(NLP):文本分类、命名实体识别、问答、语言建模、摘要、翻译、多项选择和文本生成。Transformer、BERT 机器视觉(computer vision):图像分类、目标检测和语义分割。CNN、ResNe...

Read more

B端产品经理入门

摘要 产品经理需要关注的6点: 行业与市场分析 需求调研与挖掘 产品商业模式设计 产品架构设计 产品与运营打法 规划里程碑设定 竞品分析 找到竞品:通过app store,google play,github等渠道寻找 收集基础数据:竞品名称、版本号、优缺点等 输出竞品分析报告: 市场竞争环境:市场现状、市场规模、用户规模、未来趋势 基础数据分析:同类产品 竞品分类分析:产品模式、盈利方式 筛选核心竞品:核心竞品原因 核心竞品分析:产品定位、目标人群、盈利模式 总结和思考

Read more

AI-infra

摘要 AI智算中心的相关知识点 GPU服务器 HGX与DGX的区别:HGX是服务器中的GPU模块例如HGX H100则是包含8块H100的模块,DGX server则是包括GPU、内存、网卡、硬盘和HGX模块的AI服务器 GPU 网络 NVIDIA Mellanox SHARP 存储 此处为引用,没有准确说明计算原理: 以OpenAI为例,进行样本数据量的分析。GPT2是40GB、GPT3是45TB、GPT4的量级预计达到了数百TB甚至PB级,对存储的空间也带来巨大挑战。 在checkpoint和模型文件部分:以GPT4为例,Checkpoint 数据大小约为5-8TB,模型大小约为2.8TB,按照常规的每四个小时保存一次,90天的训练周期,保存15%的比...

Read more