端侧推理——llama.cpp / MLC LLM，让 AI 走出数据中心-北京尧图网络科技有限公司

前置知识：第18篇（模型量化）/ 第19篇（vLLM 推理引擎）引言：当 AI 不再需要联网想象一下：你的手机里跑着一个 70B 模型，离线、隐私、零延迟——这就是端侧推理的终极目标。端侧推理与服务器推理有本质的不同：服务器推理端侧推理瓶颈算力（GPU 计算）带宽（内存速度）显存HBM（~2TB/s）DDR/统一内存（~100GB/s）量化INT8/FP8INT4/Q4_K_M(极端)最优 batch尽可能大1（批处理收益低）目标最大化吞吐量平衡速度与隐私一、为什么带宽是端侧推理的瓶颈？