Reflexion:让 Agent 从错误中学习 Reflexion 到底是什么Reflexion 是一种面向语言智能体的学习框架。它把环境反馈转写成自然语言形式的self-reflection再将这些经验加入后续上下文。这里的“学习”主要发生在上下文与记忆中不等于更新 LLM 的权重。因而它比重新训练或 Fine-tuning 更轻量也更容易观察 Agent 是如何修正策略的。三个角色加上一段记忆Reflexion 将一次任务拆成执行、评价和反思三个职责。它们可以由不同模型承担也可以由同一个 LLM 使用不同 Prompt 分别扮演。一次完整迭代怎样运行可以把 Reflexion 理解成一个带复盘能力的 Agent loop。它与 ReAct、传统 RL 有什么区别方法核心机制是否更新模型参数主要优势ReAct交替进行 Reasoning 与 Acting通常不更新能够边思考边调用工具、观察环境Reflexion在 ReAct/CoT 之外增加评价、反思和记忆通常不更新利用语言经验纠正后续策略Traditional RL根据奖励信号优化策略参数通常需要适合大规模、可重复训练的环境