AI模型相关知识
摘要
本文主要介绍AI模型相关知识,包括AI模型相关技术、AI模型相关工具、AI模型相关应用等。
一些概念
模型的泛化能力:模型举一反三的能力,即模型在测试集数据时的表现,而不是训练时数据的表现
大模型的幻觉问题:上下文矛盾问题、与prompt要求不一致、与事实矛盾(编造事实)、与常识矛盾(常识)
产生幻觉的原因:数据质量问题(不准确的信息、缺乏多样性),大模型训练的过拟合(泛化能力弱),推理过程,提升工程(给模型的prompt不够好)
大模型分布式并行
在单芯片或者加速卡上无法提供所需的算力和内存需求的情况下,考虑大模型分布式并行技术是一个重要的研究方向。
分布式并行分为数据并行、模型并行,模型并行又分为张量并行和流水线并行。
集合通信原语
在并行计算中,通信原语是指用...
AI-infra
摘要
AI智算中心的相关知识点
GPU服务器
HGX与DGX的区别:HGX是服务器中的GPU模块例如HGX H100则是包含8块H100的模块,DGX basePod则是包括GPU、内存、网卡、硬盘和HGX模块的AI服务器
GPU
网络
NVIDIA Mellanox SHARP
存储
此处为引用,没有准确说明计算原理:
以OpenAI为例,进行样本数据量的分析。GPT2是40GB、GPT3是45TB、GPT4的量级预计达到了数百TB甚至PB级,对存储的空间也带来巨大挑战。
在checkpoint和模型文件部分:以GPT4为例,Checkpoint 数据大小约为5-8TB,模型大小约为2.8TB,按照常规的每四个小时保存一次,90天的训练周期,保存15%的...
K8S集群搭建
摘要
基于CentOS7.9系统搭建
搭建K8S
安装kubeadm
使用国内aliyun源
cat <<EOF > /etc/yum.repos.d/kubernetes.repo
[kubernetes]
name=Kubernetes
baseurl=https://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64/
enabled=1
gpgcheck=1
repo_gpgcheck=1
gpgkey=https://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg https://mirrors.aliyun.com/kube...
cloudflare的使用
获取Bearer Token
在https://dash.cloudflare.com/profile 创建api token
管理DNS
curl -X GET "https://api.cloudflare.com/client/v4/zones" \
-H "Authorization: Bearer ${ACCESS_TOKEN}" \
-H "Content-Type:application/json" | python3 -m json.tool # 获取该TOKEN可以管理的DNS zone信息
ZONE_ID={Your Zone ID}
curl -X GET "https://api.cloudflare.com/client/v4/zon...
wireguard搭建和使用
服务端搭建
参考官网安装服务 https://www.wireguard.com/install/
生成配置
生成私钥,并根据私钥生成公钥
wg genkey | sudo tee /etc/wireguard/privatekey | wg pubkey | sudo tee /etc/wireguard/publickey
在/etc/wireguard/目录下编写配置文件:
服务端配置
[Interface]
PrivateKey = <server-PrivateKey>
Address = 10.10.0.1/24
PostUp = iptables -A FORWARD -i wg0 -j ACCEPT; iptables -t nat -A POS...
Scrum敏捷原则和方法
敏捷价值观和原则
4条价值观
相比流程与工具 更重视人员与互动
相比全面记录,更重视软件可用性
相比合同谈判,更重视客户协作
相比遵顼计划,更重视应对变化
12原则
满足客户
欢迎变更
经常性交付软件
共同协作
激励员工
面对面沟通
软件可用性等于开发进度
恒定节奏
卓越技术
简洁
自组织团队
反思
明确定义的线性过程模型,依据经验的迭代模型
敏捷项目管理模型
该模式不是线性的,而是循环的。
构想
推测
探索
调整
收尾
敏捷方法
极限编程(XP)
精益原则与工具
看板
Crystal
功能驱动开发(FDD)
动态系统开发法(DSDM)
模型...
cobbler的使用
install
CentOS7.9系统
yum install epel-release
yum install cobbler cobbler-web pykickstart
setenforce 0 # 关闭selinux
cobbler check # 初步检查
一些配置修改:
修改server地址,提供cobbler服务的ip地址
修改next_server地址,提供PXE服务的地址
修改/etc/xinetd.d/tftp,diable改为”no”
启动rsyncd服务,systemctl start rsyncd.service
生成新的密码,openssl passwd -1 ‘123456’, 并修改/etc/cobbler/se...
40 post articles, 5 pages.