大模型是怎么从“猜词机器“变成“私人助理“的 文章目录1 引言2 能力跃迁2.1 第一跃迁能力涌现2.2 第二跃迁学会听懂人话2.3 第三跃迁学会揣摩人心2.4 第四跃迁学会慢慢想2.5 第五跃迁学会使用工具2.6 第六跃迁学会按目标自主执行3 落地场景每类应用背后用到了哪些跃迁4 综合实例一次旅行规划串起六个跃迁5 总结6 相关文献1 引言大模型我又回来了。去年4月开了个大模型的专栏写了第一篇之后就一直搁置着。今年重新捡起来还是要朝着体系化去学习尽量避免东一锤子西一榔头的状态。这一年多大模型的迭代速度一如既往地快。第一篇文章里提到早期的 GPT 只有一个核心能力预测下一个词。但现在的大模型能写代码、做分析、帮人规划旅行方案跟个私人助理已经没什么两样了。今天这篇就来梳理一下大模型经历了哪些能力上的跃迁才变成了现在这个几乎无所不能的形态2 能力跃迁答案不是一步到位的而是六次跃迁叠加的结果下面逐一拆解每一步跃迁看看它们各自解决了什么问题。先说起点——大模型在一切跃迁发生之前是个什么状态。大模型的训练方式非常单纯把互联网上几乎所有能找到的文字都读了一遍——新闻、论文、小说、代码、百科……总量以万亿词计。然后反复做一件事把一段话遮住最后一个词让模型猜。无数次重复直到它对什么词接在什么话后面最自然形成了极其精准的预测。这就是Next Token Prediction预测下一个词元这个用海量数据反复训练的过程就叫做预训练Pre-training。举个例子你给它看君不见它会接上黄河之水天上来——因为读过足够多的古诗它知道这句话之后最可能跟什么。而要把这件事做好模型必须真正理解语言背后的逻辑——预测牛顿提出了万有引力定律这一发现彻底改变了人类对宇宙的后面接什么就必须知道牛顿是谁、万有引力定律的意义。这就是为什么一个只会猜词的模型读完足够多的文字后往往会积累起大量的世界知识。但这个阶段的模型能力是有上限的它只会续写不会干活。你说帮我总结一下这份文件它可能给你续写出一篇毫不相关的故事。而且这个上限光靠延长训练时间是突破不了的——关键在规模。2.1 第一跃迁能力涌现规模扩大会带来两个效果分别由两篇论文揭示。第一个效果猜词更准。2020年OpenAI 提出Scaling Law规模法则模型参数量、训练数据量、计算量三者同步增长“猜词的误差会稳定下降。这让大模型的研发从摸石头过河变成了按图索骥”。第二个效果涌现出全新能力。2022 年Google Research 给出了另一个发现——涌现Emergence在某些具体任务上模型能力并不随规模平滑增长而是在参数量超过某个临界点后从几乎为零突然大幅提升。不是量变是质变事先无法预测。拿算术运算举例参数量3位数加减法准确率10亿1B≈ 0%100亿10B≈ 0%1000亿100B突然显著提升没有人专门教过它做加减法参数量超过临界点能力就凭空冒出来了。涌现出的能力涵盖好几类文本理解与总结读懂一篇文章并提炼要点、多步数学推理做算术、解方程、代码生成根据描述写出可运行的代码、常识推理对复杂常识问题给出合理判断。但能力有了不等于会用——它还不知道怎么响应指令潜力都锁在里面。2.2 第二跃迁学会听懂人话2022年OpenAI 发表 InstructGPT 论文提出了SFTSupervised Fine-Tuning监督微调。核心思路很简单专门收集一批人类指令 → 高质量回答的配对样本用这些数据对模型做针对性微调让它学会以回答问题的方式响应指令而不是以续写的方式响应。换句话说SFT 的主要作用不是灌输新知识而是解锁和对齐告诉它收到这类指令就调用对应的能力给出回应。所需数据量也不大几万到几十万条高质量样本就够了。经过 SFT模型终于能听懂指令了。但新的问题随之而来能回答不代表回答得好。2.3 第三跃迁学会揣摩人心同样一个问题可以有一百种回答方式有的准确但冷冰冰有的温暖但言之无物有的过于啰嗦有的甚至包含有害内容。光靠 SFT模型并不知道哪种回答更符合人类期望。解决方案叫做RLHFReinforcement Learning from Human Feedback基于人类反馈的强化学习与 SFT 同在 InstructGPT 论文中一起提出。训练过程分三步①让人类对模型的多个回答排序②用排序数据训练奖励模型把人类偏好提炼成可计算的信号③让语言模型不断生成回答奖励模型实时打分语言模型朝更高分方向迭代。这个方法的精妙在于不需要给出标准答案只需要告诉模型哪个更好。这就是 ChatGPT 在 2022 年底爆火的真正秘密——同期有很多参数量更大的模型但 ChatGPT 的回答让人感觉这个 AI 懂我靠的正是 RLHF。经过预训练、SFT、RLHF一个人见人爱的对话模型基本成型了。2.4 第四跃迁学会慢慢想第四个叠加的能力是推理——让模型在给出答案之前先把推理过程一步步写出来而不是直接输出结果。这个技术叫做CoTChain-of-Thought思维链。它的工作方式是把原本一步跳到答案的过程拆成一步一步显式写出来——每一步的输出作为下一步的输入错误可以在中途被纠正而不是积累到最后才暴露。如果说之前的模型是直觉型选手CoT 让它进化成了会打草稿的学生。CoT 的触发方式出人意料地简单在 Prompt 里加一句话——“Let’s think step by step”模型在数学推理、逻辑判断等复杂任务上的准确率就能大幅提升。这一发现来自 2022 年两篇论文Kojima 等人东京大学的《Large Language Models are Zero-Shot Reasoners》证明了一句提示就能激活推理能力Google Brain 的《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》进一步验证了提供示例时效果更好。这是从外部用提示词触发推理的方式。更进一步的做法是用强化学习RL把先想再答的习惯直接训练进模型——让它自己学会什么时候需要多想几步而不依赖外部提示。OpenAI 的 o1 和 DeepSeek R1 走的就是这条路本质上是 CoT 思路的内化版本。效果有多显著在 2024 年 AIME美国数学奥林匹克的15道竞赛难题中没有强化推理能力的 GPT-4o 答对 2 题加强了推理能力的 o1 答对 13 题。2.5 第五跃迁学会使用工具第五个叠加的能力叫做Tool Use工具调用也称为 Function Calling。核心思路是教模型在合适的时机调用合适的外部工具把执行结果拿回来再继续推理。流程大致是模型判断出靠自身知识无法完成这个任务→ 输出结构化工具调用请求 → 外部系统执行并返回结果 → 模型基于结果继续完成回答。可调用的工具种类很多代码解释器、日历、邮件系统、数据库接口、联网检索……任何可以封装成函数的能力都可以成为模型的工具。模型从只能依赖自身知识变成了能调用外部系统、操作真实世界。其中有一种实践格外普遍叫做RAGRetrieval-Augmented Generation检索增强生成回答问题之前先从外部知识库检索相关内容再交给模型基于这些内容来回答。它解决的问题很典型——模型训练数据有截止日期、企业内部私有知识没法预训练进模型这两种情况用 RAG 都可以补齐。大多数企业落地大模型应用第一步往往就是搭一套 RAG 系统。2.6 第六跃迁学会按目标自主执行第六步叠加的是Agent智能体架构。它在模型已经能听懂指令、会推理、能调工具的基础上再加一层自主执行的循环——让模型从等待指令 → 给出回答的单轮模式切换到接收目标 → 自主规划 → 分步执行 → 观察结果 → 调整策略的多轮循环模式不再需要人逐步下指令给出目标它自己搞定。一个完整的 Agent 通常包含四个模块规划Planning把目标拆解成可执行的子任务。帮我调研竞品定价策略→ 搜索主要竞品、抓取定价页面、整理对比表格、生成报告……记忆Memory在多轮执行中记住已经做了什么、得到了什么结果。不能每一步都从零开始。工具Tools根据需要调用合适的工具——搜索、代码执行、文件读写、API 调用等是上一步 Tool Use 能力的直接应用。反思Reflection每步执行完后检查结果出了问题就诊断原因、调整策略、重试而不是崩溃退出。把这四个模块组合起来模型就从问答机器变成了能干活的员工。不过单个 Agent 能处理的任务复杂度终究有上限于是业界开始探索更进一步的方向——Multi-Agent多智能体协作把复杂任务拆给多个专职 Agent由调研、分析、写作等角色分工协作再由协调者汇总。这本质上是工程架构层面的延伸而非模型能力的新突破目前还处于早期探索阶段AutoGen微软、LangGraphLangChain是代表性框架。回顾这六次跃迁换个视角来看会更直观——用实习生成长来类比跃迁技术实习生的成长起点预训练聪明、记性好读了海量资料但只会续写第一跃迁Scaling Law 涌现读书读到临界点没人教的能力突然冒出来开始举一反三第二跃迁SFT完成岗前培训建立收到需求→给出回应的工作习惯第三跃迁RLHF在无数次反馈中磨出分寸感知道什么话该说、怎么说才合适第四跃迁CoT遇到复杂问题学会打草稿想清楚再开口答案可靠得多第五跃迁Tool Use不再凡事靠脑子查资料、跑代码、调外部系统都可以第六跃迁Agent给个方向就能自己搞定拆任务、调资源、处理意外、交完整结果3 落地场景每类应用背后用到了哪些跃迁六个跃迁不是孤立的技术概念它们直接对应了今天我们用到的各类 AI 产品。下面这张表列出了常见场景分别依赖了哪几步跃迁应用场景典型例子依赖的跃迁智能问答 / 知识解答ChatGPT 回答相对论是什么第一~三跃迁知识涌现 听懂指令 回答得好文案写作 / 内容生成写邮件、写周报、写公众号文章同上主要是第一~三跃迁数学 / 逻辑推理解数学题、分析逻辑漏洞第一~三跃迁 第四跃迁CoT 推理实时信息查询“今天北京天气”“最新 A 股行情”前三跃迁 第五跃迁Tool Use企业知识库问答基于内部文档回答报销政策第一~三跃迁 第五跃迁中的 RAG代码生成与执行Cursor / GitHub Copilot 写代码并运行第一~四跃迁 第五跃迁代码解释器AI 搜索如 Perplexity联网搜索 整合信息 带引用回答第一~三跃迁 第五跃迁 部分第四跃迁自动化工作流自动查邮件 → 整理信息 → 生成报告 → 发通知第一~五跃迁提供基础第六跃迁Agent是关键几个值得关注的结论第一大多数日常对话场景前三个跃迁就够了。问知识、写文章、聊天——预训练知识 SFT RLHF 已经覆盖得很好。第二涉及实时信息或私有知识第五跃迁是硬门槛。不接工具模型就是本知识停在训练截止日的百科全书。第三真正的自动化需要第六跃迁。很多产品声称是AI 助理实际只到了第三跃迁真正的 Agent 是你给出目标、它自己搞定。4 综合实例一次旅行规划串起六个跃迁用一个大家都有共鸣的例子把六个跃迁完整地串一遍。场景你对 AI 说“帮我规划一次5天4晚的日本关西深度游预算1.5万/人喜欢历史文化和美食尽量避开人潮行程不要太赶。”只有起点预训练AI 脑子里有关于京都、奈良、大阪的大量知识但只是接话不会干活。你说完它可能续写出一篇关于京都红叶的散文——没有行程、没有规划。加上跃迁1涌现模型规模足够大之后规划旅行所需的潜在能力——理解需求、整合信息、组织行程——已经涌现出来了。但它依然不知道怎么响应帮我规划这个指令还是只会续写潜力锁在里面。加上跃迁2SFTAI 终于听懂了帮我规划是一个指令输出一个结构化行程Day1 大阪城→心斋桥Day2 清水寺→二年坂……但这是模板化的打卡路线没有针对你的偏好不够贴心。加上跃迁3RLHFAI 开始揣摩你的心思“不要太赶” 每天3个景点封顶“避开人潮” 推荐龙安寺而非金阁寺“历史文化” 多安排寺庙、古街少安排购物回答语气也变得自然贴心“考虑到你喜欢安静Day2早上建议先去龙安寺枯山水庭院人少的时候坐在那里发呆体验最好……”加上跃迁4CoTAI 不再直接丢给你行程表而是先显式推理“清水寺早上7点人少但光线最适合拍照是8:30-9:30所以安排在Day2早上8:00到达。从清水寺到二年坂步行10分钟顺路。下午去伏见稻荷千本鸟居走到半山腰就够了再往上太耗体力……”加上跃迁5Tool UseAI 发现光靠脑子里的知识不够主动调用外部工具调用航班查询北京↔大阪6月中旬往返含税3800元符合预算调用天气 APIDay3预报有雨自动把室内活动博物馆、茶道体验调到那天调用地图 API发现Day2三个景点之间步行总计超过两小时远超预期自动拆分调整它不再是一本知识停在训练截止日的百科全书而是连接了真实世界。加上跃迁6AgentAI 不等你一步一步问你给它目标它自己搞定全部拆解子任务、逐个调工具、追踪预算消耗、遇到下雨自动换室内活动、发现某天步行超2万步自动减一个景点……最后交给你的是一份完整行程表含时间、地点、交通、预算明细、备选方案外加打包清单。六个跃迁叠加一个只会猜词的模型变成了能帮你搞定整趟旅行的私人助理。而且没有哪一步可以跳过——缺了前3步它听不懂你要什么缺了第4步它安排不合理缺了第5步它只能靠自己的知识无法调用任何外部工具缺了第6步你需要手动触发每一步。5 总结一个只会猜下一个词的模型是怎么变得无所不能的答案就是这六步叠加的结果——预训练积累了知识涌现解锁了潜力SFT 教会了响应指令RLHF 磨出了分寸感CoT 带来了推理能力Tool Use 连接了真实世界Agent 把这一切整合成了闭环。缺了任何一步今天我们用到的那些 AI 产品都不会是现在这个样子。6 相关文献Scaling Laws for Neural Language ModelsScaling Law 原始论文https://arxiv.org/abs/2001.08361Emergent Abilities of Large Language Models涌现原始论文https://arxiv.org/abs/2206.07682Training language models to follow instructions with human feedbackInstructGPTSFT RLHF 原始论文https://arxiv.org/abs/2203.02155Chain-of-Thought Prompting Elicits Reasoning in Large Language ModelsCoT 原始论文Few-Shothttps://arxiv.org/abs/2201.11903Large Language Models are Zero-Shot ReasonersZero-Shot CoT“Let’s think step by step” 出处https://arxiv.org/abs/2205.11916OpenAI Function Calling 官方文档https://platform.openai.com/docs/guides/function-callingOpenAI o1 System Cardhttps://openai.com/index/openai-o1-system-card/DeepSeek-R1 技术报告https://arxiv.org/abs/2501.12948