阿里巴巴研究院让AI学会“举一反三“ 这项研究由阿里巴巴集团的研究人员完成论文于2026年6月发表在预印本平台arXiv上编号为arXiv:2606.20002v1有兴趣深入了解的读者可以通过该编号查询完整论文。**一切从一个日常困境说起**你有没有遇到过这样的情况每次换了一个新工作环境就得从零开始摸索规律。哪条路上班最快、哪个同事负责什么、哪台打印机容易卡纸……这些经验日积月累才能让你真正得心应手。但如果每天上班你的记忆都会清零那不管干多久你永远都像第一天入职的新人。当前的大语言模型也就是ChatGPT、通义千问这类AI助手的核心技术面对的正是这种尴尬处境。它们每次接到一个新任务都像一个没有工作记忆的新员工——不管之前跟同样的环境打过多少交道它都得重新摸索。阿里巴巴集团的这支研究团队认为这个问题必须被正面解决。于是他们提出了一个名叫连点成线CoDConnect the Dots的训练框架目标是让AI学会在长期工作中积累经验、更新认知并把这些经验真正用到下一个任务里。**一、AI的新员工困境为什么现在的模型总是记不住东西**以一个老练的侦探破案来理解这件事。一个经验丰富的侦探走进一个新城市第一个案子可能摸不准门道但破了几个案子之后他对这座城市的街道、居民习惯、犯罪规律都有了感觉接下来的案子自然越破越快、越破越准。现在的AI模型更像是一批侦探新人——每次接到新案子都是从零出发完全不记得上一个案子里学到的东西。研究团队指出现有的强化学习训练方式让模型反复做题、不断纠错的核心问题恰恰在这里它训练的是每道题独立作答的能力而不是跨越多道题积累经验的能力。这就好比一个学生每次考试前记忆都会重置不管考了多少次他永远都在从头复习。研究团队因此提出一个清晰的区分**长周期部署**CoD-Deploy与**标准任务训练**Standard RL是两种根本不同的场景。前者要求AI在同一个环境里连续处理一系列相关任务不断更新自己对环境的认知后者只要求AI把每道题答对。这两种目标在设计上是错位的。**二、连点成线框架像老员工一样积累经验**研究团队的核心提案可以用一个侦探事务所的运作来描述。事务所接了一批案子都发生在同一座城市。新来的侦探AI接到第一个案子开始调查、收集线索最终无论成败都把这次调查的心得——比如A街的监控有盲区、B区的居民不配合问询——记录下来整理成一份简短的城市笔记。接下来的案子开始前侦探先翻翻这份笔记带着更多先验知识出发自然能更快锁定嫌疑人。随着案子越破越多笔记越来越丰富侦探对这座城市的掌握也越来越深。CoD框架的设计完全遵循这个逻辑。整个过程由两种类型的工作交替进行一是解题回合solve-task episodeAI负责尝试完成当前任务二是更新认知回合update-context episodeAI回顾刚才的表现提炼出有价值的发现写入环境笔记context/hint。这份笔记会在下一个任务开始时作为额外线索提供给AI帮助它少走弯路。值得注意的是这套框架在训练阶段CoD-Train和实际部署阶段CoD-Deploy采用完全一样的运作模式。训练时AI在多个不同环境里练习这种做任务→总结→再做任务的循环部署时则在新环境里照样运转。研究团队认为训练方式和部署方式的对齐是让模型真正学到跨任务积累经验能力的关键。**三、强化学习的改造如何给AI一个长远眼光的激励机制**普通的强化学习训练就像一个只按单次考试成绩发奖金的老板你这道题答对了给奖励答错了扣分。AI因此只关心眼前这道题完全没有动力去考虑我现在多探索一步对下一道题有没有帮助。CoD框架要求AI在每一步都考虑长远收益。研究团队引入了动态规划的经典思想——每一回合的回报不只是当前任务的得分而是当前任务加上未来所有任务得分的平均值。具体来说AI在第j个位置完成的任务其回报被定义为从第j个任务到最后一个任务的平均奖励。这意味着一次好的总结回合如果真的帮助了后续任务AI就能从中获得实质性的奖励信号反之亦然。这把AI的动机从把眼前这道题答对推升到让整个任务序列尽可能顺利。在具体算法实现上研究团队采用了GRPO风格的训练方案一种不需要额外裁判模型的强化学习算法。为了让它适应CoD场景他们做了一个关键改造在同一个任务序列中同一位置的多个轨迹被视为一组用这一组轨迹的平均回报作为基准算出每条轨迹相对于平均水平的优劣再据此更新模型参数。然而早期实验发现当模型在某些环境下训练时训练过程会出现不稳定的情况——奖励曲线大幅波动模型表现忽好忽坏。研究团队深入分析后发现问题出在平均优势值持续偏负导致正向梯度和负向梯度严重失衡。为此他们引入了一个自适应的重新加权机制当一批训练样本的平均优势为负时对每个样本的权重做指数调整使正负梯度重新达到平衡。这个机制类似于一个有经验的教练在学生状态低迷时调整训练强度防止学生因负反馈过多而丧失信心。实验证明这个改动显著提升了训练稳定性。**四、专门为CoD设计的训练场三个精心构造的环境**要训练AI的跨任务积累经验能力就不能随便找一堆普通题目来练。如果每道题都能独立解决AI就没有理由去积累和传递经验训练自然退化成普通的强化学习。研究团队因此专门设计了三类训练环境每一类都有其独特的设计逻辑。第一类叫做**FrozenLake-Obscure**迷雾冰湖。它的灵感来自一款经典的网格游戏AI在一张网格地图上行走目标是从起点走到终点途中要绕开冰洞。这本来是一道普通的寻路题但研究团队加了一个关键扭曲AI可以使用的四个方向指令被替换成了A、B、C、D四个抽象符号而这四个符号对应上下左右哪个方向在每个新环境里都是随机打乱的且事先未知。这个设定的妙处在于如果AI不知道A等于向右、B等于向上它在第一道题里撞几次墙是完全正常的——信息层面就是不可能百分之百成功。但一旦AI在前几道题里摸索出了这个对应关系并且把它记录在环境笔记里后续的题目就会变得容易很多。这就逼着AI必须学会在解题过程中主动探索、识别规律并在总结回合里把这些规律提炼出来、传递下去。第二类叫做**Alchemy-Random**随机炼金术。每个环境里有一套随机生成的配方——哪两种元素组合能合成第三种元素。AI的任务是在不知道任何配方的情况下通过实验逐步发现规律并最终合成目标元素。与迷雾冰湖相比这类环境的元素种类更多、任务变化更丰富难度范围也更宽适合更进阶的训练。一份好的环境笔记应该记录下已验证的配方和已知的失败组合让AI在新任务里不必重复无效尝试。第三类叫做**TerminalSimulator**终端模拟器。这个环境模拟了真实的电脑终端操作AI需要完成文件操作、传输等日常任务。不同的操作系统、不同的文件大小可能需要截然不同的操作策略。这个环境主要被用作跨域评估检验AI在完全没有训练过的场景里能否把在其他环境里学到的积累经验能力迁移过来。**五、实验结果从一问三不知到越做越顺手**研究团队做了两组主要实验都以阿里巴巴自家的Qwen3-8B-Instruct模型作为起点进行训练。第一组实验只在迷雾冰湖环境里训练。训练结束后效果非常直观AI在没有任何背景知识的情况下解第一道题成功率从18%提升到了45%——这个上限主要受信息论约束因为不知道方向对应关系纯靠猜测能达到的上限本就有限。但真正令人注目的是AI在解同一个环境里的第四道题时成功率从训练前的28%大幅跃升到76%。这说明AI确实学会了在前几道题里主动摸清规律、写好笔记到第四道题时已经胸有成竹。更重要的是这种能力不只在训练过的场景里奏效。研究团队把训练好的模型放到更难的迷雾冰湖变体地图更大、任务序列更长上测试它依然展现出越做越好的趋势证明这种能力可以泛化到同类更难的环境。随后他们又把这个模型直接扔进完全没见过的炼金术环境和终端模拟器环境结果发现在这些跨域场景下AI同样表现出了随任务序列推进而逐步提升的能力尽管幅度相对较小。第二组实验同时在迷雾冰湖和炼金术两个环境的混合数据上训练。总体趋势与第一组类似但炼金术环境的训练曲线相对波动较大研究团队认为这与混合训练时不同域数据交替出现、梯度方向互相干扰有关并在附录中讨论了不同算法对训练稳定性的影响。还有一个值得单独提出的发现。研究团队还测试了拉尔夫循环Ralph-loop场景——即AI反复尝试解决同一道题每次尝试后更新笔记再重试。在终端模拟器的这种设定下AI的表现随着尝试次数的增加确实在稳步提升。这说明CoD训练出来的能力同样适用于反复打磨同一任务这种场景而不仅仅是依次处理不同任务。**六、AI的笔记长什么样三类环境里的真实经验总结**论文的附录里展示了几个真实的AI生成笔记读来颇为有趣也很直观地说明了这套机制在实践中是怎么运作的。在迷雾冰湖环境里AI的笔记写道方向1等于向右方向2等于向上方向3等于向下方向4等于向左。这四行字就是AI在之前的任务里通过观察自己的移动结果推断出来的核心情报。有了这份笔记下一道题就可以直接照着已知的方向对应关系规划路径而不必再浪费步骤去摸索。在炼金术环境里笔记的内容更丰富AI不仅记录了已经验证的配方比如元素lqlrr加上gwzzz能合成hjklt还记录了分层策略先合成低层元素、再组合出高层元素以及整条合成目标元素的完整路径。这份笔记几乎相当于一个完整的攻略手册让AI在新任务里可以直接按图索骥。在终端模拟器里笔记的风格则更像操作规程AI写道用scp命令把文件从远程服务器拷贝到本地然后用unzip命令解压到指定目录解压前先用cd命令切换到目标目录。这些经过实战验证的命令序列被提炼成可复用的操作知识传递下去。**七、与已有研究的联系和区别CoD站在哪个肩膀上**研究团队在论文中专门梳理了CoD框架与几条已有研究脉络的关系。从概念上看CoD与元强化学习Meta-RL关系最近尤其是RL?这个经典范式——让AI通过循环神经网络的隐藏状态在多个回合之间传递上下文信息。CoD的关键不同在于它用的是大语言模型而非循环网络这意味着上下文笔记可以是可读的自然语言文字长度和内容都更加灵活而且大模型本身具备的语言泛化能力为跨域迁移提供了更强的基础。近期也有几项相关工作尝试把类似思路应用到大模型上包括LaMer、MAGE和Orbit等。CoD与它们的主要区别在于场景设定和算法设计。这些工作通常假设AI在同一道题上反复尝试直到成功而CoD的场景是AI持续面对一系列不同但相关的新任务必须在整个序列里保持长期积累。此外在信用分配也就是哪些行为应该得奖励、哪些应该被惩罚的处理上Orbit采用了粗粒度的方案——把整个序列的总奖励作为单一信号这在序列较长时会大幅削弱训练效果而CoD采用了细粒度的位置分组方案使得即使序列很长训练信号也能精确地传达到每一步。CoD与测试时计算扩展inference scaling也有关联——把AI反复尝试同一任务的拉尔夫循环可以视为CoD的一个特例。但普通的推理扩展方法只是在推理阶段多用计算资源并不真正训练模型学会积累经验而CoD是把这种积累经验的能力直接训练进模型权重里。**八、还有多少路要走未完成的研究与开放问题**研究团队对这项工作的局限性保持相当清醒的认识。论文明确指出当前的算法在某些设定下仍存在不稳定性现有的自适应重加权机制是一种工程性的启发式修补还缺乏更严格的理论支撑。在环境设计上目前只有迷雾冰湖和炼金术两类主要训练环境覆盖的场景范围还相当有限。研究团队预期随着训练环境的种类和数量扩大模型的跨域泛化能力有望进一步提升。在上下文管理机制上当前的环境笔记只是一段文字以追加到系统提示词的方式传入下一个任务。这种方式简单有效但在面对更复杂的场景时可能不够用——例如当任务序列非常长、环境里的知识点非常多时一段简短的文字笔记很可能无法装下所有有价值的信息。研究团队提出未来可以引入持久化记忆库、结构化知识图谱或者类似Anthropic智能体技能系统的机制让AI的经验积累更加有条理、更易检索。此外研究团队也明确了CoD与现有标准强化学习训练的定位关系两者并不互斥而更像是相辅相成。标准的任务级强化学习擅长打磨特定领域的专业能力比如数学推理、代码生成而CoD训练的是跨任务的元能力——学会在新环境里快速适应和积累。把CoD作为额外的训练阶段加入现有的训练流程或者训练一个CoD教师模型再用蒸馏的方式迁移给其他模型都是值得探索的方向。归根结底这项研究想解决的问题其实非常朴素我们花了大量资源训练出来的AI凭什么每次进入一个新环境都要从零摸索如果一个真正的专业人士在同一个项目里工作了一段时间他对这个环境的理解是会随着时间不断加深的。让AI也拥有这种能力或许才是让它真正像个人一样工作的关键一步。现在CoD框架给出的是一个概念验证级别的答案可行有效但离真正的规模化应用还有距离。至于这段距离有多长大概只有继续做下去才知道。有兴趣深入钻研的读者可以在arXiv上通过编号2606.20002查到完整论文研究团队也已经在GitHub上开放了完整的代码实现。---QAQ1CoD框架和普通的强化学习训练有什么本质区别A普通的强化学习训练让AI针对每道题单独学习每道题之间没有信息传递相当于每次都从零开始。CoD框架的核心区别在于它训练AI在解完一道题后主动总结经验、更新环境笔记并在下一道题开始时把这份笔记带上。训练时的激励机制也不只看当前这道题的得分而是把未来所有任务的平均得分都算进来让AI有动力去做那些对以后有帮助但眼前得分不高的探索行为。Q2FrozenLake-Obscure环境为什么要把方向替换成A、B、C、DA这个设计是为了制造一个信息不对称的障碍强迫AI必须学会积累和传递经验。如果方向指令是正常的上下左右AI每道题都能独立解决就没有理由总结和传递经验了。把方向换成未知符号后AI在第一道题里不可能百分之百成功因为它根本不知道A对应哪个方向。只有通过观察自己的移动结果、推断出对应关系、写进笔记、带到下一道题成功率才能真正提升。这个设定在结构上保证了积累经验是有实质价值的。Q3CoD训练出来的能力能用在真实场景里吗A研究目前还处于概念验证阶段主要在游戏类和模拟类环境里验证。不过实验结果显示训练出来的能力可以泛化到没有见过的环境比如从冰湖游戏迁移到炼金术再迁移到终端模拟器这说明AI学到的不只是某个具体环境的技巧而是一种更通用的进入新环境后如何积累和利用经验的能力。研究团队认为未来这套框架有潜力应用在个人助手、编程助手等需要长期了解用户习惯和工作环境的场景但目前距离实际落地还需要进一步的研究和规模化验证。