
标题RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents来源arXiv, 2606.19047v1️文章简介研究问题如何解决多轮工具使用强化学习中静态数据集信息样本快速耗尽及语义不连贯的问题主要贡献论文提出RODS框架利用奖励方差动态检测能力边界并合成结构化同构数据以二十分之一的数据量达到大规模离线合成性能。重点思路基于GRPO算法中的进度奖励方差作为零成本边界探测器识别成功率约0.5的高梯度信号任务作为合成种子。设计技能对齐的重采样合成管线提取种子的API依赖拓扑与复杂度特征生成结构同构但叙事新颖的多轮变体。采用整体语义锚定策略通过重写智能体基于统一叙事同时生成所有轮次查询解决多轮对话语义割裂问题。构建动态回放缓冲管理机制包含分阶段注入协议与多层退役机制实时剔除已掌握或过难样本以维持训练信号密度。建立包含规划、执行、重写、评判及精炼的五阶段多智能体流水线结合确定性环境验证确保合成数据的可执行性与质量。分析总结在仅使用400条种子数据和800条活跃样本的情况下RODS性能媲美1.7万条数据的离线合成管线数据效率提升约20倍。相比固定数据RL和环境增强方法RODS在BFCL V3基准上取得最优成绩证明边界扩展比单纯增加反馈更有效。实证验证了奖励方差启发式假设边界区域的 rollout 奖励方差是其他区域的2.0至2.2倍确认了梯度信号的集中性。消融实验表明去除连贯性重写导致性能下降最显著随机选择种子替代边界检测也会造成明显性能损失。在BFCL V4等分布外测试集上表现优异证实结构化同构合成能促使模型学习抽象推理模式而非过拟合文本线索。个人观点论文将RL训练过程中的奖励方差转化为数据合成的导航信号精准定位模型“最近发展区”通过保持任务结构复杂度不变而变换表层语义巧妙平衡了学习难度与泛化需求。