
前置知识:第12篇(分布式训练)/ 第06篇(Transformer 架构)引言:显存比算力更稀缺训练大模型时,你最先遇到的瓶颈往往不是"算力不够"而是**“显存不足”**。一张 A100 80GB 听起来很多,但 7B 模型用 fp32 训练需要:参数:7B × 4B = 28GB梯度:7B × 4B = 28GB优化器(Adam):7B × 8B = 56GB合计:112GB——一张 A100 放不下这一篇讲的就是:怎么用混合精度和各种优化技巧,把更多东西塞进有限的显存里。一、精度格式选型1.1 fp16 与 bf16:同是 16 位,不同命运格式指数位尾数位最大值最小值fp328233.4e381.4e-45