
近半年来我参与了几个企业的合作项目主要是帮忙设计 Agent。实际上我最大的感触是很多企业或需求一上来就奔着做 Agent 去但实际上并不合适。究其原因往往是因为他们听到比如 OpenClaw 或者是像 Hermes 这样的Agent很厉害但等实际上自己尝试一遍之后发现效果反而不如那Workflow工作流的解决方式。特别是很多时候老老实实写个 RPA 脚本其实一晚上就能跑通既稳定又便宜。反而一上 LangChain加个向量库再加上多 Agent、Multi-Agent 这一套最后做出来的东西又慢又不稳定还烧钱。最后大家甚至开始怀疑是不是 AI 不行。其实说白了不是 AI 不行而是往往选错了工具。我自己部署过好几次的OpenClaw以及Hermes最近的DeepSeek-TUI也都用过。我的感触就是如果你只是自己个人使用其实像 Claude Code、Codex这类通用的 Agent 就非常好用完全没必要自己重复造轮子。但如果是为了商用或落地最好还是采用“部分智能 高程度自动化”的形式比如结合 RPA 或 Workflow。因为在需要落地、需要保证执行的情景下智能化反而没那么重要更重要的是保证输出的稳定。但是如果要开发 AI Agent 的话肯定还是要学的。但我不建议直接去学什么 OpenClaw 的源码我觉得对于大多数人来说都太复杂了最好还是按照从基础到深入的学习进度一步步来学。不过这种 Agent 这种新东西最麻烦的就是理解它的概念以及对其有一个系统性的、总体上的把握。下面是一个八步的学习方法下面这 8 步就是把起点摆正。Step 1花半天搭一个认知地基别一上来就写代码先花半天到一天搞清楚 agent 的「零件」叫什么。这步不投入后面看任何项目你都会一脸茫然。挑一份免费教程看一遍就够microsoft/ai-agents-for-beginners微软官方12 节课从 agent 是什么讲到工具调用、RAG、多 agent 协作。最稳的入门。datawhalechina/hello-agents中文版替代Datawhale 出的系统教程适合中文阅读。再补一份必读Anthropic 的「Building Effective Agents」虽然是24年的但是依旧非常有价值短、密、反框架看完你会知道大多数 agent 应该长得多简单。如果想直接拿到一份和下面这 8 步几乎一一对应的中文系统路线图强烈推荐datawhalechina/Agent-Learning-Hub从 Stage 0「基础认知」到 Stage 8「生产部署」覆盖最小 agent 循环、Tool Use / RAG / 记忆、agent harness、多 agent、Skills 与 MCP、浏览器 agent、评估与可观测性-一张完整的 8 阶段地图。它特别强调Claude Code-style coding agent、OpenClaw-style 个人 agent这些「真正在用的范式」而不是再给你列一堆过时框架。配着这篇攻略一起看效率最高这篇是地图那个 repo 是详细路书。学到什么程度算够能用自己的话讲清「LLM、Tool Use、ReAct、上下文窗口、向量检索、Embedding、Agent vs Workflow」这几个词的意思就可以收手开干了。再啃下去反而是拖延。Step 2找你自己最痛的那个场景别先迷上「agent」这个词再到处找用途。先找你工作里最烦、最重复的那个 SOP再想 agent 能不能接管它。几个真有人做出来的方向找灵感查日志和错误码、周报自动汇总、邮件分类和回复初稿、代码 review 助手、长论文整理。判断公式很简单流程固定 → workflow 够路径随输入变 → 才需要 agent。「每天把日报汇成周报」—workflow「用户随口提一个模糊需求自己决定先查什么、再算什么」-这才是 agent。再退一步如果连模型推理都不需要-纯粹是「点按钮、复制字段、填表单」这种重复劳动老老实实写个 RPA 脚本Python Playwright或者 n8n、UiPath 这类工具反而又快又稳又便宜。能 RPA 就别 workflow能 workflow 就别 agent。工具越简单崩的概率越低成本越好控维护越省心。强行给所有东西套 agent是新手最贵的一课。Step 3第一版手写 ReAct不要用框架很多人入门第一件事是抱着 LangChain 啃文档。我的建议反过来第一个 agent 千万别用框架。理由很直接LangChain、LangGraph 封装太厚新手用经常是「demo 跑通了一出问题不知道错在哪」。Anthropic 那份指南也说最成功的 agent 往往不依赖复杂框架而是简单、可组合的模式。100 行 Python 内自己手写一遍 ReAct 循环「想一步 → 做一步 → 看结果 → 再想」。直接调 OpenAI / Anthropic / DeepSeek 的 SDK 就行不用任何 agent 框架。骨架就是一个 while 循环把任务和已有的「思考-行动-观察」历史拼成 prompt让模型吐下一步该干啥思考 动作解析动作、调相应的工具、拿到结果观察再把这一轮塞回历史循环到模型说「done」为止。就这么简单。能让它自动调一次搜索、调一次计算器、合在一起回答你一个问题你就跑通了。想参考一份真正「从 0 到 1 搭出来」的小 agentshareAI-lab/learn-claude-code从最小 agent 一步步搭出 mini Claude Code含工具调用、规划、子 agent、任务系统。读它的代码比看十个 LangChain 教程都顶用。等你手写过一遍、知道每个环节在干嘛了再回头用框架-那时候框架是省事的工具而不是挡在你和原理之间的一层黑盒。Step 4把模型的输出「锁死」-结构化输出agent 崩在哪八成崩在「模型输出的格式不对」。让模型「自由」吐 JSON 然后 try/except是新手最容易写出的坏代码。专业做法是用约束解码 强校验从源头让模型只能吐合法格式。两个值得用的开源项目jxnl/instructor给 LLM 加 Pydantic 约束自动校验 自动重试。Python 圈最流行。dottxt-ai/outlines更底层在 token 级别就不可能让模型吐错格式。入门用 instructor 就够你跑很远。Step 5让 agent「会用工具」-Tool Use 与 MCPagent 真正值钱的地方在于它「会做事」不只是「会说」。学两件事1 Tool Use 。写工具就是写一个「模型看得懂」的 schema-名字、参数、返回值清清楚楚。原则只有一条动作幂等、错误明确。否则模型一旦调失败根本不知道怎么救。举个最小例子体会下一个 search_logs(keyword, time_range) 工具描述写成「按关键词搜索过去 N 小时内的服务日志返回结构化结果数组」-模型一看就会用。反之名字叫 do_log_thing、描述含糊模型基本只会瞎调。工具描述写得好不好直接决定 agent 的成败。2 MCPModel Context Protocol。Anthropic 推的协议正在变成「agent 接外部世界」的事实标准。modelcontextprotocol/servers官方维护的 MCP server 集合GitHub、Slack、Postgres、Filesystem 都有现成的。读它的代码学规范再给你自己的业务封一个。Step 6加记忆 检索增强RAG光靠对话上下文不够agent 要扛真实业务必须接外部知识和长期记忆。RAG 这条 pipeline 跑通四步文档按章节和语义切块别傻按 512 字硬切转向量存进向量库检索时叠 BM25 关键词做混合检索用 Cross-Encoder 重排。向量库三个常用的chroma-core/chroma最轻本地玩够用。milvus-io/milvus生产级亿级向量也扛得住。qdrant/qdrantRust 写的性能和扩展性都不错。记忆这块两个值得看letta-ai/letta原 MemGPT把「长期记忆」做成了一套系统。mem0ai/mem0更轻量的记忆层API 简洁。想看一份系统性 RAG 实现做参考run-llama/llama_index的代码值得翻-不一定要用它但它对每个环节的拆分非常清晰。什么时候该加记忆一个粗判断你的 agent 是不是要跨多次对话记住用户的偏好或历史结论只是单次任务、跑完就走那对话上下文够了别自找麻烦只要涉及「下次还要记得这次的事」再上长期记忆。Step 7建评估集-这一步决定你是新手还是老手你的 agent 改了个 prompt 到底变好了还是变差了凭感觉不算数。没有评估集你就是在黑暗里调参。最朴素的做法攒几十个真实任务 标准答案每次改动跑一遍看任务完成率、平均步数、错误率。评估集不用大但一定要「脏」-必须覆盖真实场景里那些刁钻、边界的输入。我见过太多 agent在干净的 demo 数据上效果惊艳一上线遇到真实用户换个问法就原形毕露根子全在评估集太干净。实操技巧先从线上日志或真实对话里抽 30 条最难的、最容易翻车的每条标注「该输出什么」-这就是你第一版评估集。后面每周新增几条就够。一周后你就会发现这是整个工程里 ROI 最高的事。工具推荐explodinggradients/ragasRAG / agent 评估的事实标准faithfulness、answer relevancy、context precision 几个核心指标都有现成实现。confident-ai/deepeval测试框架风格用 pytest 跑 agent 测试。langfuse/langfuse开源 LLM observability每一次调用的 prompt、返回、中间步骤、token 消耗都能看到。生产环境基本必备。Step 8扛住生产环境-成本、路由、降级能跑通只是开始能稳定上线还有最后一段路。BerriAI/litellm一份代码切 100 多家模型 API路由 / fallback / 缓存 / 限流全有。我自己也在用。Anthropic prompt caching把不变的长上下文缓存住API 费用能省到原来的 1/10。模型分层简单分类、抽取这类活用便宜的小模型Haiku、Gemini Flash、DeepSeek 小版本就够复杂规划再上大模型。一个 agent 里混用两三档模型是省钱也是提效的标准做法。降级策略模型连续失败 N 次自动 fallback 到更简单的逻辑或人工。这是 agent 工程师那些「不性感但值钱」的脏活。上面这 8 步自己摸索能走通但你会在「各种名词」和「系统架构」这两层卡很久。