ICML 2026 | 让多模态大模型学会带着时间思考:北大与华为团队开源TaRO框架 针对视频时序定位中多模态大模型推理流于表面、缺乏真正时间感知的问题本文推出了 TaRO 框架。本文的第一作者为北京大学王选计算机研究所博士生郑明航通讯作者为助理教授刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表并和国内外知名高校、科研机构广泛开展合作。本文主要介绍该团队和华为中央媒体技术院在多模态视频理解与时序定位领域的最新研究成果。该工作针对现有基于强化学习的视频大模型在推理过程中往往产生肤浅推理且无法为精确的时序定位提供有效指导的问题提出了全新的时序感知推理优化Temporal-Aware Reasoning OptimizationTaRO训练框架。该方法显式地增强了模型带着时间思考的能力在多个公开基准上取得了最先进的零样本性能。目前相关代码已开源。论文标题Temporal-Aware Reasoning Optimization for Video Temporal Grounding论文链接https://arxiv.org/abs/2606.09248v1开源代码https://github.com/oceanflowlab/TaRO项目主页https://minghangz.github.io/publication/taro视频介绍https://www.youtube.com/watch?vGJaodMUG9Vc背景与动机视频时序定位Video Temporal Grounding, VTG旨在根据自然语言查询在未剪辑的视频中精准定位对应事件的起止时间段。近期多模态大语言模型MLLMs结合强化学习RL在生成引导时序定位的推理路径方面展现出了巨大潜力。然而现有的强化学习方法生成的推理往往是肤浅的描述未能识别出回答所需的特定视频证据。如图 1a所示本文对现有分别在带推理路径和直接输出答案无推理两种设置下进行训练和推理发现两者的性能几乎没有差异。这一现象证明了尽管现有模型被训练进行推理但这些生成的肤浅推理对最终的定位预测几乎没有实质性贡献。本文分析了其背后的两大原因低效的随机探索机制。现有的强化学习范式在探索庞大的视频推理空间时缺乏有效指导盲目的随机展开random rollout导致模型主要探索低质量的轨迹进而产生次优且肤浅的推理。忽视推理质量的奖励设计。当前的奖励函数主要关注最终答案的正确性如计算 IoU而完全忽略了推理过程本身的质量。这使得那些并不真正依赖视觉时序证据的推理路径也可能被强化导致模型依赖虚假相关性。图 1背景与动机技术方案为了克服上述挑战本文提出了时序感知推理优化TaRO框架旨在训练多模态大模型显式带着时间进行思考。如图 2 所示TaRO 框架包含三个组件模板化推理探索Constructive Reasoning Exploration为了提供高质量的初始指导打破低效的随机探索本文利用预先生成的带有明确时间戳的密集视频字幕来构建推理轨迹。通过按时间顺序拼接采样后的字幕模型可以学习到哪些视觉线索对定位至关重要哪些是干扰项从而避免了盲目摸索。时序敏感度奖励Temporal-Sensitivity Reward为了评估推理质量并确保其严格锚定在正确的视觉片段上本文设计了一种实例级的推理路径奖励机制。核心思想是高质量的推理应该锚定在特定的事件和时间戳上如果扰乱了真实事件边界附近的帧这种推理应当失效导致推理路径的概率logit下降 。TaRO 利用这种概率下降作为奖励信号强制模型生成与关键时间戳紧密耦合的推理。渐进式课程学习Progressive CurriculumTaRO 框架遵循渐进式的学习策略。在预热阶段模型利用模板化探索数据进行学习掌握如何关注视觉线索并建立带着时间思考的范式。随后模型过渡到自由探索阶段在时序敏感度奖励的引导下自主生成并完善其推理策略。图 2时序感知推理优化TaRO框架实验结果零样本视频时序定位性能如表 1 所示采用 TaRO 框架训练的视频大模型在 Charades-STA、ActivityNet Captions、QVHighlights 和 TVGBench 四个公开基准测试上全面超越了现有的最先进方法。例如使用 Qwen2.5-VL-7B-Instruct 作为基座模型时TaRO 在 TVGBench 上的 R10.5 指标领先基线模型达 8.4%。此外TaRO 在较小的 Qwen2.5-VL-3B 模型和更新的 Qwen3-VL-8B 架构上也展现出了一致的性能提升证明了该方法的通用性。表 1零样本视频时序定位性能比较长视频场景下的扩展能力为了进一步验证 TaRO 在长视频上的表现本文在两大长视频数据集上进行了零样本评测包括 TACOS平均长度 367 秒和 Ego4D NLQ平均长度 499 秒数据集。如表 2 所示在使用相同底座模型的情况下采用 TaRO 框架训练的视频大模型依然保持了优秀的性能大幅领先现有基线方法。特别是在 Qwen3-VL-8B 架构上TaRO 带来了更明显的提升例如在 TACOS 上 R10.3 提升了 13.7%在 Ego4D NLQ 上 R10.3 提升了 8.7%。这证明了基于时序感知的强化学习优化在面对长视频时的有效性和鲁棒性。表 2长视频时序定位性能比较消融实验表 3 验证 TaRO 各核心设计的有效性。首先在纯随机探索的基线模型上单独加入时序敏感度奖励TR使得 R10.5 从 61.1% 提升至 63.1%第 12 行证明了时序敏感奖励的有效性。而如果仅在训练中让模型完全模仿外部构造的推理路径CRE而不进行后续的自由探索阶段PC模型的定位性能会出现严重下滑第 34 行。这是因为测试阶段无法依赖外部字幕输入模型必须内化自己的推理策略。而引入渐进式课程学习PC则弥补了这一鸿沟并实现了最优性能第 56 行。表 3消融实验可视化结果图 3 的可视化展示了 TaRO 在应对复杂多模态场景时的表现。 视频开头出现了一个强干扰项女子用手擦脸其视觉动态与文本查询用刷子擦脸高度相似。TaRO 通过生成细粒度的中间时序推理精准锚定了 19.0s 至 37.0s 的关键动作并剔除了后续的无关片段最终给出了正确的时序预测。图 3可视化对比总结针对视频时序定位中多模态大模型推理流于表面、缺乏真正时间感知的问题本文推出了 TaRO 框架。通过引入模板化推理探索机制来高效引导模型带着时间思考并利用时序敏感度奖励来量化推理质量 TaRO 成功提升了多模态大模型的时序推理能力。大量实验证明该框架不仅显著提升了模型推理的鲁棒性与可解释性 更在多个公开基准上取得了最佳的视频时序定位性能。