开源强化学习训练系统AReaL 2.0发布，面向下一代智能体应用升级强化学习基础设施-北京尧图网络科技有限公司

7 月 2 日开源强化学习基础设施项目 AReaL 正式发布 2.0 版本。AReaL 旨在打通基础模型训练与现代智能体应用之间的链路为 Agent 应用场景提供高效的强化学习训练支撑。此次发布的 AReaL 2.0 版本面向已经进入真实业务场景的 Agent提供了一套让 Agent 在使用中持续学习的系统基础设施。通过 AReaL 2.0Agent 在完成真实任务时产生的交互过程可以被记录、整理并接入后续训练流程用于持续优化底层模型从而让 Agent 在安全可控的前提下越用越强。如今Agent 正在进入真实生产环境写代码、查资料、调用工具在企业系统中完成越来越复杂的任务。但一个问题也随之出现Agent 每天都在工作却很难从工作中真正成长。在真实业务中Agent 会产生大量有价值的经验哪些任务完成得好哪里调用工具失败了用户为什么不满意某一步决策是否走错了方向。但是这些信息大多只是以日志形式被保存下来很难稳定、安全地转化为下一次能力提升。AReaL 2.0 要解决的正是 Agent 上线之后如何继续成长的问题。开发者不需要重新开发 Agent只需让 Agent 原本发给大模型的请求经过 AReaL 2.0 的统一推理入口就可以接入在线强化学习流程。AReaL 2.0 在线强化学习Online RL架构示意以 Hermes Agent 为例Hermes 仍然照常接收任务、规划步骤和调用模型AReaL 2.0 则在后台记录它完成任务时的关键交互过程并结合任务结束后的反馈或奖励信号把这些真实轨迹用于后续训练。开发者也可以把 Hermes 替换成自己的 Agent 和任务环境用同样的方式搭建 Agent 在线强化学习流程。这意味着Agent 的能力提升不再只依赖人工构造数据、离线训练和重新部署。真实任务中的多轮对话、工具调用、执行结果和反馈信号都有机会成为模型继续学习的材料。这一点在企业场景中尤其重要。在企业工作流中的 Agent 面对的是真实、复杂、不断变化的任务代码库会更新业务流程会调整用户需求会变化工具和系统也可能发生改变。如果 Agent 的能力一旦上线就基本固定它就很难长期适应真实环境。AReaL 2.0 希望补上的正是从“会使用工具”到“能从使用中学习”之间缺失的一环。同时真实业务中的持续学习也不能只是简单地“收集数据再训练”。Agent 可能接触代码、客户信息、企业知识库和内部系统因此训练链路必须考虑权限控制、数据脱敏、隔离和审计等要求。AReaL 2.0 在系统设计中引入了面向 Agent 轨迹的数据代理机制让真实任务数据进入训练流程时可以在更安全、可控的前提下被管理和使用。AReaL 团队在技术报告中指出自演进 Agent 的关键瓶颈不只是模型本身有多强也不只是强化学习算法是否先进而是缺少一套能够服务真实 Agent 的在线强化学习基础设施。AReaL 2.0 正是面向下一代智能体应用进行的架构升级把 Agent 服务、真实任务轨迹、数据治理和在线强化学习训练连接起来让 Agent 在部署之后继续学习具备了可落地的工程基础。从更长远的角度看AReaL 2.0 指向的是下一代智能体应用的演进范式Agent 不再只是一次性训练和部署的工具而是在真实环境中不断获得反馈把成功和失败都转化为经验并在安全边界内不断提升自身能力。AReaL 项目由蚂蚁集团、清华大学和香港科技大学等团队于 2024 年发起。2026 年 5 月AReaL 正式从蚂蚁 InclusionAI 孵化成为独立开源社区并加入 PyTorch Foundation Ecosystem 项目进一步融入主流强化学习基础设施生态。随着社区独立发展AReaL 也在持续获得产业和开源生态伙伴的参与和支持包括华为云团队、MindLab 等。未来AReaL 将继续围绕在线强化学习、自动化评估和多模态智能体训练等方向迭代与社区共同推进自演进智能体生态发展。目前AReaL 2.0 技术报告和代码已开源。GitHub 仓库https://github.com/areal-project/AReaL技术报告[2607.01120] Next-Generation Agentic Reinforcement Learning Systems Enable Self-Evolving Agents

开源强化学习训练系统AReaL 2.0发布，面向下一代智能体应用升级强化学习基础设施

相关新闻

okTurtles 专家揭秘：AI 编码“短 leash”方法及审查要点，助开发者提升效率

IROS 2025自动驾驶9大范式突破：3DGS、人工势场与v292标注

离婚财产纠纷律师怎么选？避开营销套路，看懂真实专业硬实力

最新新闻

HSTracker：macOS炉石传说终极智能辅助指南

如何用HSTracker成为炉石传说数据大师：macOS玩家的终极智能助手

HarmonyOS技术精讲-Form Kit（卡片开发服务）第5篇：卡片交互事件——点击跳转与双向通信`

5分钟掌握FreeRouting：开源PCB自动布线神器让复杂电路设计变简单

小鹏与理想VLA技术路线深度对比：感知驱动vs意图驱动

华为光猫配置解密工具实战指南：快速掌握网络运维利器

日新闻

工业自动化中的传感器与执行器控制方案解析

5分钟掌握百度网盘秒传工具：高效文件转存的终极指南

AI量化金融：技术架构与实战指南

周新闻

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

月新闻

YOLOv8推理性能优化：从1.2FPS到35FPS的全链路加速实践

Coze与Dify对比指南：低代码AI应用开发从入门到实战

AI生图工具怎么选？2026年6月版实测对比