
2026牌局过半四个玩家正在交换手牌……——具身“四子”的“番位竞争”目录01 VLM从二维理解到三维空间感知VLM-3R融合三维重建的空间推理框架RoboBrain 2.5精确三维空间推理与密集时序价值评估02 VLA推理能力与高精度控制的统一Gemini Robotics 1.5 / ER 1.6多本体VLA与具身推理的迭代GenieReasoner通过流匹配动作分词器统一推理与精确控制π0.7多样化上下文条件与开放性泛化03 VLN通用导航与自我认知机制的引入OctoNav迈向通用具身导航智能体AwareVLN基于自我认知推理的视觉语言导航04 世界模型从视频生成到可微物理引擎Fast-WAM世界动作模型的训练与推理解耦NVIDIA Cosmos 3统一物理推理与多模态生成的开放世界基础模型OrbiSim将世界模型重新定义为可微物理引擎05 2026年具身智能大模型全景图谱从各司其职到相互渗透2026年具身智能大模型的研究在四条技术路线上同步深化“VLM从二维语义理解转向三维空间感知VLA致力于推理能力与高精度控制的统一VLN从单一任务执行向通用导航智能体演进World Models则从视频生成走向可微物理引擎。在实际应用上这四类模型的边界正在模糊VLA模型开始集成推理能力VLN模型引入了自我认知机制而世界模型也逐渐与动作生成相融合形成了所谓的世界动作模型WAM。基于上述技术架构与演进逻辑2026 年各大高校、企业在四大技术赛道均产出了突破性研究成果。本文将围绕 2026 年以来的代表性工作逐一梳理各方向的最新进展。01VLM从二维理解到三维空间感知2026年VLM 的核心挑战是如何让模型在不依赖外部深度传感器的前提下理解三维空间结构并支持机器人的精细操作与推理。VLM-3R融合三维重建的空间推理框架发文团队德克萨斯大学奥斯汀分校UT AustinCVPR 2026研究背景现有的大型多模态模型在二维图像理解上表现出色但在具身场景中机器人需要从单目视频中理解三维空间结构。传统方法往往依赖外部深度传感器或离线三维地图限制了其在动态、时敏场景中的适用性。核心方法VLM-3R提出了一种统一框架通过三维重建指令微调3D Reconstructive Instruction Tuning来增强VLM的空间感知能力。模型使用几何编码器从单目视频帧中提取隐式三维Token再通过空间-视觉-视角融合机制将空间上下文与自然语言指令对齐。团队构建了超过20万条三维重建指令问答对并提出了视觉-空间-时序智能基准VSTI包含13.86万个问答对覆盖五类时序空间推理任务。实验结果VLM-3R在VSTI基准和多个三维问答任务上均取得了优于现有方法的表现证明了在不依赖深度传感器的前提下单目视频输入也能支持有效的三维空间辅助与具身推理。▲图1 | VLM-3R框架总览左为现有方法对深度传感器的依赖中为VLM-3R的空间编码器视觉编码器双流架构右为在VSI-Bench和VSTI基准上与各基线的性能对比RoboBrain 2.5精确三维空间推理与密集时序价值评估发文团队北京大学RoboBrain系列具身AI基础模型的最新迭代版本。研究背景具身AI基础模型在执行精细操作任务时需要同时具备精确的三维空间定位能力和对任务执行进度的实时感知能力。现有模型大多依赖二维像素坐标进行物体定位难以满足高精度操作的需求。核心方法RoboBrain 2.5在其前代模型基础上进行了两项关键升级。第一精确三维空间推理模型从二维像素相对定位转向深度感知坐标预测能够理解绝对度量约束并在物理约束下生成完整的三维操作轨迹以有序关键点序列的形式输出。第二密集时序价值评估模型引入了步骤感知的进度预测机制能够跨视角提供稳定的执行状态反馈信号为下游强化学习提供更可靠的监督信息。实验结果这两项升级使RoboBrain 2.5在复杂精细操作任务中的表现有所提升尤其是在需要精确定位和长时程任务进度感知的场景中。▲图2 | RoboBrain 2.5的两项核心能力上半部展示精确三维空间推理包括三维坐标预测与操作轨迹生成下半部展示密集时序价值评估步骤感知的任务进度预测02 VLA推理能力与高精度控制的统一VLA将VLM的语义理解能力与机器人的低级控制直接连接。2026年这一方向的核心矛盾在于增强推理能力往往会导致动作精度下降而追求高精度控制又容易限制模型的泛化能力。Gemini Robotics 1.5 / ER 1.6多本体VLA与具身推理的迭代发布团队Google DeepMind研究背景通用机器人需要同时具备深度的物理世界理解能力、高级推理能力和精准的通用控制能力。现有的VLA模型在跨本体泛化和复杂多步任务的执行上仍存在明显局限。核心方法Gemini Robotics 1.5引入了新颖的运动迁移Motion Transfer, MT机制使模型能够从异构的多本体机器人数据中学习提升了VLA的通用性。同时该模型在动作预测中穿插了多层次的自然语言推理过程使机器人在执行前能够进行内部规划显著提升了复杂多步任务的执行能力。同期发布的Gemini Robotics-ER 1.5则建立了具身推理的新基准覆盖视觉空间理解、任务规划和进度评估等能力。2026年发布的Gemini Robotics-ER 1.6在ER 1.5基础上进一步提升了具身推理能力在空间推理精确物体指向与计数、多视角理解综合多个摄像头视角判断任务完成状态以及物理约束感知方面均有显著进步。其中特别值得关注的是仪表读取能力模型通过结合视觉推理与代码执行能够精确读取工业环境中的压力表和液位计这一能力来源于与波士顿动力的实际应用合作。▲图3 | Gemini Robotics-ER 1.6在指向与计数、单视角/多视角任务成功检测、仪表读取四项基准上均优于ER 1.5版本其中仪表读取成功率达93%GenieReasoner通过流匹配动作分词器统一推理与精确控制发布团队智元、上海创新研究院研究背景在VLA模型中推理能力与动作精度之间存在持续的矛盾优化推理能力的模型往往动作精度不足而追求高精度控制的模型则推理能力受限。一些混合架构如π0在连续控制头与离散VLM主干之间存在训练目标冲突影响了推理性能。核心方法GenieReasoner提出了FACTFlow-matching Action Tokenizer一种利用流匹配技术从紧凑Token序列中重建高保真连续轨迹的离散动作分词器。FACT将运动控制转化为离散序列建模同时保留了连续空间的精度使推理与动作可以在统一的自回归Transformer中通过单一梯度空间共同优化。此外该工作还提出了ERIQEmbodied Reasoning Intelligence Quotient基准包含6000余个具身推理问答对涵盖四个推理维度并通过实验验证了推理能力与VLA泛化性能之间的正相关关系。实验结果GenieReasoner在ERIQ基准上的准确率比π0-FAST提升了41%在真实机器人操作任务中也优于π0.5等连续动作基线。▲图4 | GenieReasoner框架总览左为三类训练数据多模态网页数据、具身数据、机器人动作数据经由FACT分词器统一转化为离散Token右为ERIQ基准性能对比和真实机器人任务结果π0.7多样化上下文条件与开放性泛化发布团队Physical Intelligence研究背景当前的机器人基础模型大多仅依赖单一语言指令作为提示难以将示范数据、自主采集数据和非机器人来源的异质数据统一利用限制了模型在新场景下的泛化能力。核心方法π0.7的核心思路是在训练期间引入多样化上下文条件Diverse Context Conditioning机制。模型的提示不仅包含描述任务目标的语言指令还包含任务执行策略的多模态信息包括任务表现元数据和子目标图像。这一设计使模型能够利用极为多样的数据包括人工示范、含失败案例的自主数据以及非机器人来源的数据。▲图5 | π0.7的整体架构高层策略模块SigLIPGemma 4B将任务指令分解为子任务指令世界模型BAGEL 14B生成子目标图像主VLA模型接收观测历史、子任务指令、子目标图像和元数据等多模态上下文并输出动作实验结果π0.7在未见过的场景中展现出较强的开放性能包括在多种厨房家电上执行多阶段任务、跨本体零样本泛化如在未见过该任务的情况下折叠衣物以及在性能上达到与专门经过强化学习微调的模型相当的水平。03 VLN通用导航与自我认知机制的引入2026年VLN方向的研究突破了传统的单一任务设定开始向多模态通用导航和具备自我认知能力的推理机制演进。OctoNav迈向通用具身导航智能体发布团队北京航空航天大学、新加坡国立大学、北京大学等CVPR 2026 收录研究背景传统的导航研究通常被划分为目标导航ObjNav、图像导航ImgNav和语言导航VLN等相互独立的任务各自使用不同的数据集和方法导致模型难以处理现实中多模态混合的导航指令。核心方法OctoNav提出了一个统一上述任务的通用导航框架包含大规模基准测试OctoNav-Bench和对应的模型OctoNav-R1。OctoNav-Bench在连续环境中构建了多模态、多能力混合的自由形式指令-轨迹对并特别设计了TBA-CoTThink-Before-Action Chain-of-Thought数据集为动作预测提供背后的思考过程。OctoNav-R1基于多模态大语言模型构建采用混合训练范式HTP包含行动监督微调、导航GRPO和在线强化学习三个阶段借鉴了DeepSeek-R1等工作中的推理增强思路将其迁移至导航领域。▲图6 | OctoNav框架总览左为多模态、多能力混合自由形式指令示例中为OctoNav-Bench包含400场景和10k TBA-CoT数据右为OctoNav-R1在各导航子任务上的性能雷达图以及真实环境泛化演示AwareVLN基于自我认知推理的视觉语言导航发布团队清华大学CVPR 2026 收录研究背景当前基于VLM的端到端VLN方法大多直接预测动作缺乏对智能体自身状态、任务进度和环境关系的显式理解。这导致模型在面对复杂或模糊指令时难以进行精确的子任务规划和错误纠正。核心方法AwareVLN提出了一种自我认知推理框架其核心是稀疏推理机制模型并非在每一步都生成推理文本而是自主判断何时需要进行深度分析并仅在关键导航节点如子任务边界触发结构化推理。当推理被触发时模型会综合历史视觉观察和先前推理结果对当前智能体-指令-环境的关系进行多维度分析依次描述当前场景、评估任务进度并规划下一步行动。此外该工作还设计了一个带有进度感知划分策略的自动数据引擎用于生成高质量的训练数据。▲图7 | AwareVLN的统一推理-行动框架模型通过特殊标记切换行动模式与推理模式在关键导航节点自动触发场景描述、进度评估和下一步规划04 世界模型从视频生成到可微物理引擎世界模型World Models通过学习环境的动态规律使智能体能够预测行动的后果从而支持更长视野的规划和更高效的策略学习。2026年这一方向的研究不仅在视频生成策略上取得进展更开始向可微物理引擎的方向深入。Fast-WAM世界动作模型的训练与推理解耦发布团队清华大学、星海图研究背景世界动作模型World Action Models, WAMs被视为VLA的有力补充因为它们显式地建模了视觉观察在动作作用下的演变过程。然而一些WAM通常遵循先预测未来视频再生成动作的范式在推理时由于迭代的视频去噪过程会产生显著的延迟严重影响实时部署。核心方法Fast-WAM通过受控实验系统研究了WAM的性能提升究竟来源于训练阶段的视频共训练还是测试时的显式未来预测。研究发现WAM的主要优势在于训练时的视频建模所带来的更好世界表征而非测试时的显式未来生成。基于这一发现Fast-WAM在保留训练时视频共训练的同时在测试时跳过了未来预测步骤直接从隐式世界表征中生成动作。▲图8 | Fast-WAM架构示意训练时同时优化Video DiT和Action DiT推理时跳过未来帧生成直接输出动作实现190ms延迟下的实时控制实验结果Fast-WAM实现了190ms的推理延迟比现有的WAM快4倍以上。NVIDIA Cosmos 3统一物理推理与多模态生成的开放世界基础模型发布团队NVIDIA研究背景物理AI系统机器人、自动驾驶等在真实世界部署时面临训练数据稀缺和仿真栈碎片化的挑战。现有的世界模型往往只能处理单一模态难以同时支持视觉推理、世界仿真和动作生成。核心方法NVIDIA Cosmos 3采用了混合TransformerMixture-of-Transformers架构将自回归模块与扩散模块并联。自回归模块通过因果自注意力对多模态输入进行序列建模其K/V值将作为条件传入扩散模块扩散模块则通过全注意力进行生成从而实现对文本、图像、视频、音频和动作的统一理解与生成。Cosmos 3是首个完全开放的全模态模型能够原生处理和生成文本、图像、视频、环境声音和动作数据。▲图9 | NVIDIA Cosmos 3的混合Transformer架构自回归模块的K/V输出作为条件传入扩散模块实现对文本、图像、视频、音频和动作的统一建模与生成实验结果Cosmos 3在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench等物理AI基准上的开放模型排行中均位列第一在RoboLab和RoboArena机器人策略评测中也取得了领先成绩。OrbiSim将世界模型重新定义为可微物理引擎发布团队上海交通大学研究背景现有的基于视频生成的世界模型在视觉保真度上表现出色但往往缺乏严格的物理约束难以支持基于梯度的策略优化。传统的物理仿真引擎虽然具有精确的物理建模但无法与神经网络进行端到端的梯度传播。核心方法OrbiSim提出了一种全新的机器人仿真范式将世界模型重新定义为完全可微的物理引擎。它建立了一条统一的、基于物理的路径连接了结构化的场景资产、神经动力学和下游的强化学习。通过在整个仿真循环从显式状态转换到视觉观察生成中实现端到端的可微性OrbiSim支持了传统仿真器难以处理的任务包括可微接触建模、稀疏奖励下基于梯度的策略优化以及直觉式的物理参数推断。▲图10 | OrbiSim架构示意左为统一的场景资产表示中为OrbiSim-Dynamics预测下一物理状态与OrbiSim-Vision预测下一帧解耦的双模块右为通过反向传播实现的端到端可微分策略优化05 2026年具身智能大模型全景图谱从各司其职到相互渗透站在2026年的“中”点回望具身智能大模型的发展呈现出几条清晰的主线。在VLM方向研究重心从二维语义理解转向三维空间感知。在VLA方向推理与控制的统一成为核心命题。VLN方向从单一任务执行走向具备规划与反思能力的智能体。在世界模型方向向可微物理引擎的方向深入。四路并进的格局已经清晰但更具结构意义的变革正发生在模型架构层面。上述代表性工作揭示了一个共同趋势VLM的感知表征、VLA的决策控制、VLN的空间规划与世界模型的动态预测之间的功能边界正在被系统性打破。而这一分工格局很可能只是过渡形态——例如统一的世界-动作模型如WorldVLA、MotionWAM、轻量化具身推理模型如NanoVLA、星海图G0 Tiny、具身推理引擎如Gemini Robotics-ER、OneTwoVLA几类新形态已成为重要的研究方向并在持续迭代中。最后需要说明的是本文重点梳理的是2026年以来相对较新的代表性工作欢迎在评论区留言补充。Ref1. π0.7: A Robotic Foundation Model for Diverse Context Conditioning. 延展阅读VLA 进入涌现时代π0.7发布组合泛化、长程灵巧操作与跨本体迁移全面实现2. VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction.3. RoboBrain 2.5: Depth in Sight, Time in Mind.4. Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training.5. Gemini Robotics 1.5: Pushing the Frontier of Generalist Robots.6. Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning. Google DeepMind.7. OctoNav: Towards Generalist Embodied Navigation.8. AwareVLN: Reasoning with Self-awareness for Vision-Language Navigation.9. Fast-WAM: Do World Action Models Need Test-time Future Imagination?10. NVIDIA Cosmos 3: The Open Frontier Foundation Model for Physical AI.11. OrbiSim: World Models as Differentiable Physics Engines for Embodied Intelligence.