重建 AI 认知第 1 篇:基础认知——一张地图看懂 AI Landscape 这些 AI 术语到底是什么关系先解决一个最基础、但也最容易混淆的问题AI、ML、DL、GenAI、AGI它们到底是什么关系很多人以为它们是并列的或者是一个路线上的几个阶段。其实不是它们是套娃结构人工智能AI └── 机器学习ML—— 让机器从数据中学习不靠人写规则 └── 深度学习DL—— 用多层神经网络ML 里最成功的一支 ├── 计算机视觉CV—— 让机器看懂图像 │ ├── 人脸识别 │ ├── 自动驾驶 │ └── OCR 文字识别 └── 自然语言处理NLP—— 让机器理解语言 └── 大语言模型LLM—— 当前 AI 的主角 └── 生成式 AIGenAI—— 能创造新内容的 AI ├── 文本生成ChatGPT、Claude ├── 图像生成Midjourney、DALL·E ├── 视频生成Sora └── 音频生成Suno几个容易搞混的点ML 和 DL 不是传统 AI它们是 AI 的底层技术大模型本身就是 DL 的产物CV 和 NLP 是并列关系人脸识别CV和对话模型NLP用了各自不同的架构但底层都是 DLGenAI 是 LLM 这个枝上长出来的果实不是跟 ML 并列的层级。ChatGPT、Claude 都属于 GenAI那AGI通用人工智能呢它不在上面这张图里。图上所有东西都是窄 AINarrow AI——只擅长特定领域。AGI 是一个还没实现的愿景指的是在所有领域都能像人一样思考和推理的 AI。它是远处的山头不是我们脚下的路。→ 下一篇会深入讲 LLM 是怎么工作的为什么它跟之前的 AI 不一样第二节那大模型到底是什么东西如果你去搜 LLM 的原理会看到一堆看不懂的词Transformer、Attention、自监督学习…… 但说到底大模型的本质比你想象的要简单。大模型 两个文件这是 AI 科学家 Andrej Karpathy 用来说服普通人的方法。一个训练好的大模型拆到最简就是两个文件一个参数文件比如 140GB—— 里面是几十亿到几千亿个数字。这些数字是模型在训练过程中学到的知识编码了它对语言和世界的理解。一般用参数数量来称呼模型大小比如 7B 就是 70 亿个参数70B 就是 700 亿个。参数越多模型理论上越聪明但需要的 GPU 也越多。一段推理代码可以简化到几百行—— 定义怎么读取那些数字、怎么用它们来预测下一个词。这段代码实现了输入一句话 → 按参数计算 → 输出下一个词的循环。训练 vs 推理训练拿海量文本千万亿个词去调整那几十亿个参数让模型学会预测下一个词。成本极高——训练一个 70B 模型大约需要6000 张 GPU 跑 12 天花费约 200 万美元。这还没算前面 3~6 个月的数据清洗时间。推理训练好的模型拿来用你输入问题它计算输出。这是每次调用花几分钱的阶段也是你做 AI 产品真正关心的成本。三步流程所有大模型都遵循一个通用的生产流程预训练 → 对齐 → 可选微调预训练让模型学知识就是上面说的那 200 万美元干的事。数据来源主要是公开网页、论文、书籍等。不同模型的核心架构大部分相似真正的差距主要在数据清洗策略——什么数据保留、什么去掉、各类数据怎么配比。这是各厂商的竞争力壁垒。对齐让模型说人话、有礼貌、不回答有害内容。靠人工标注员对模型的回答进行排序告诉模型这种回答好那种不好。对齐的成本中人力是最大头甚至可能超过预训练的算力成本——这也是闭源模型比开源模型聊起来更舒服的主要原因。微调企业自己做的在已经训练好的模型上用你自己的业务数据继续训练一小步让模型更懂你的业务。微调不教模型新知识而是教模型面对你的业务场景时应该怎么回答。Scaling Laws行业在 2020 年发现了一个关键规律模型的能力跟参数规模、训练数据量之间存在可预测的正比关系而且没有见顶的迹象。这就是 Scaling Laws。它告诉业界只要堆算力、堆数据模型就会变聪明。这个发现直接驱动了过去几年的大模型军备竞赛。这后来有一个修正——光堆参数不行数据质量同样重要。参数再多训练数据质量不高能力提升也会变慢。→ L3 会深入讲 Prompt Engineering、RAG、Agent、微调这几种应用范式的适用场景和取舍第三节LLM 能做什么不能做什么理解边界比理解能力更重要。转型AI的人要知道什么事可以交给 AI什么事别指望 AI。能做的内容生成写文章、写邮件、写方案总结归纳长文变短文、会议纪要翻译润色改语气、改风格、翻译语言问答推理基于知识回答问题角色扮演按设定的身份和规则对话代码生成写代码、解释代码不能做的当你设计产品时重点关注LLM 的边界对你的产品意味着什么会编造事实幻觉关键信息不能完全信任需要验证机制知识不实时截至训练时间。需要 RAG 补充最新信息数学不精确涉及精确计算的要靠代码不靠模型上下文窗口有限长对话需要自己管理记忆不擅长精确指令复杂指令会遗漏细节prompt 要简洁分步→ 理解这些边界后L4 会讲怎么评估模型输出质量、怎么控制成本、怎么做安全设计第四节整个 AI 产业链长什么样全产业链视角从最底层到最应用层AI 涉及六个层次应用层各种 AI 产品和行业解决方案 工具层LangChain / Dify / Coze / Ollama 等开发框架和平台 模型层OpenAI / Anthropic / Meta / DeepSeek / Qwen 等模型厂商 算力层阿里云 / AWS / Azure / 火山引擎 等云服务商 芯片层NVIDIA / AMD / 华为昇腾 等硬件厂商 能源层电力供应 / 数据中心散热 / 绿电越往下越重资产、越集中一两个厂商卡住整条链越往上越轻、创新空间越大。PM 视角的三层但作为一个学 AI 的产品/业务/设计人员你不需要天天盯着芯片和算力。简化来看模型层 → 谁造大脑 工具层 → 什么工具帮你用好大脑 应用层 → 你用 AI 解决什么具体问题你的战场在应用层。不是去跟算法工程师卷模型能力而是理解每种范式的适用边界、评估成本和效果、判断什么场景真正值得用 AI。写在最后这张地图是第一步。后续我会按这个路线逐步深入第 2 篇核心原理——LLM 到底是怎么工作的Token、Embedding、上下文窗口……第 3~6 篇关键范式——Prompt Engineering、RAG、Agent、微调分别解决什么问题、怎么选第 7~8 篇系统架构——评估、成本、安全、数据飞轮第 9 篇产品策略——PMF 判断、竞品分析、趋势洞察第 10 篇项目实践——AI 垂直应用从 0 到 1 的案例拆解这篇文章没有很深的技术内容它的目的是让你看到全貌。之后每一层都会往深走但始终是在这张地图上去定位自己。胸中有图方向自清。