跳转至

π0.7: Compositional Generalization in VLA

Physical Intelligence 于 2026-04-16 发布的 VLA 模型,首次在机器人领域观察到 LLM 式的"组合泛化"(compositional generalization) —— 模型能把训练见过的技能重组去完成从未见过的任务,比如"用一个全新厨房电器"、"在完全没训过的机器人上折衣服"。


基本信息

  • 完整标题: π0.7: a Steerable Model with Emergent Capabilities
  • 发布方: Physical Intelligence(硅谷创业公司,π 系列模型维护者)
  • 发布时间: 2026 年 4 月 16 日
  • Backbone: Gemma 3 (4B 参数)
  • Action Expert: 860M 参数
  • 发布形式: 博客 + whitepaper PDF(无 arxiv)
  • 前身: π0 (2024)、π0.5、π0.6(Recap RL specialist)

π 系列是ME 290 Introduction to Embodied AI and Robotics课程中反复提及的"VLA 通用基础模型"代表
π0.7 是这个谱系的最新转折点


核心贡献(Breakthrough)

π0.7 贡献了三件事,重要性递增:

贡献 1:Specialist-level dexterity(专家级灵巧度)

单个通用模型能达到此前多个任务特化的 RL 模型(π0.6 with Recap)的成功率 + 吞吐量。甚至在某些任务上更快。

\(\pi 0.6\)

Recap:强化学习(RL)的缩写,不断试错进行训练
Throughput 吞吐量:衡量“干活效率和速度”的指标。成功率指的是把活干成,吞吐量指的是干得快

术语:通过蒸馏 RL specialist 的 autonomous data 进 general model,并用 strategy metadata 区分策略质量。

解释:\(\pi 0.7\)通过提炼、继承之前像\(\pi 0.6\)那样的强化学习专家模型的相关数据整合进入自己的通用模型。然后,给这些大量由专家模型跑出的数据,贴上了各种标签(策略元数据),告诉\(\pi 0.7\)哪些是高分操作,哪些是糟糕的失败经历,让它取其精华,去其糟粕

贡献 2:Cross-embodiment transfer(跨平台迁移)

零样本控制从未见过的机器人。最戏剧的例子:

  • 训练数据:用静态双臂机器人采集折衣服数据
  • 测试平台:完全没见过的 bimanual UR5e(重、惯性大、夹爪粗糙)
  • 结果:π0.7 零样本成功率 ≈ 有 375 小时经验的专家遥操作员第一次在 UR5e 上试的成功率

对遥操作会有成功率的理解

  1. 在每一次任务中,实验员操控机械臂的全流程都是有规则的,例如叠衣服的任务:

    • 衣服不允许掉出桌面
    • 不允许碰倒桌上的其他东西如水杯
      一旦违反规则,就会被记录为失败
  2. “Zero-shot”窘境:遥操作的困难性

    • 由于失去触觉,使用与人类手臂完全不同关节构造、不同自由度的机械臂是非常困难的,需要专业遥操作员利用大脑的直觉和长此以往的经验来进行遥操作控制机械臂==>这具有极高的认知负荷

所以在\(\pi 0.7\)这篇论文中,研究人员把这一通用模型和在其他机械臂上有过375小时经验的专业要操作员进行对比,让二者同时上手这台他们都没有使用过的机械臂来进行任务,结果发现他们成功率差不多,以此证明通用模型的高效和普世

里程碑贡献 3:Compositional generalization(组合泛化)

概念理解

  • 泛化:在AI领域就是举一反三的能力,意味着大模型理解了任务的背后逻辑和规律,因此在遇到训练集中完全没见过的新题目时,依然能够给出争取的解法
  • 组合泛化:泛化中高级的一种能力。能够把模型学会的各个技能正确地拼接,将不同的概念以全新的方式组合起来解决新问题
    • eg: "把英语翻译成法语 + 输出 JSON" → LLM 会直接输出 JSON 格式的译文
  • 但是在机器人领域,VLA此前做不到,要让已经阅读了海量的互联网文本和图片、对通用物理交互法则了解(pre-trained)的LLM学习新技能,通常需要fine-tune(微调)
    • 即为了让模型掌握某个特定的新技能,而给它喂养特定数据进行 额外专项训练
  • π0.7 首次在 VLA 上展示了类似 LLM 的组合泛化能力 —— 把训练数据里的独立技能在新场景下重新组合使用

关键实验:操作一个从没见过的气炸锅

  • 训练数据中零演示:如何用气炸锅
  • 训练数据中:两段 "关闭气炸锅"、DROID 数据集里一个 Franka 臂的相关数据

三阶段实验

  1. 给出语言指令 "把红薯放进气炸锅"
    • 结果: 因为 \(\pi 0.7\) 在以前的训练里几乎没见过气炸锅(仅仅在网上看过两段毫不相关的残缺视频),面对这个全新的任务,它虽然勉强做出了尝试,但经常会卡壳或者找不到把手(论文说一开始的成功率极低)
  2. 有 step-by-step 语言引导时 → 机器人成功完成
    • 因为 \(\pi 0.7\) 的身体执行力极强,它完美听懂了每一个细微的单步指令,顺畅地完成了动作
    • 在人类的口头"遥控"下,任务成功率飙升到了 95% 左右
    • 此时,人类的大脑暂时充当了机器人的高层策略
  3. 把这些语言引导 fine-tune 成 high-level policy → 模型完全自主完成任务
    • high-level policy 高层策略:通常是一个聪明的大语言模型或视觉语言模型。它不直接控制电机,而是负责理解复杂需求,并将其拆解为工人能听懂的简单步骤==>类似LLM做任务时候建立的TODOs,只不过这个TODO的每一个下一步都是根据上一步结束后的当前场景做的新策略。
      • 如果红薯突然滚到地上了,是高层策略"看"到了这个意外,然后由主干大脑立刻修改 todo list,生成一句新的指令:"去地上捡红薯"
    • Low-level policy 底层策略:纯粹的执行者。它不用管红薯在哪,它只听高层策略刚才发出的那句"抓住把手",然后精准控制机械臂去抓。抓完之后,高层策略再根据新的画面,生成下一句"拉开门"。
      • \(\pi 0.7\)本体,包含 VLM backbone 和 Action Expert 两部分
    • 研究人员把阶段2中的一步步语言指导和对应的画面录像保存整理成一套文本记录
    • 然后把这份记录喂给系统里目前的高层策略,进行 fine-tune,得到一个更新的高层策略。这个高层策略也具备泛化的能力
      • 在预测下一步时,它会实时参考"机器人当前的视觉观测(robot observations)"
      • 所以,当红薯滚远导致画面改变时,高层策略不会傻傻地按照死步骤去执行"放红薯",而是能根据当前画面,动态地重新生成类似"重新抓取红薯"的新子指令

那么这个新指令难道不需要及其迅速的反应速度吗?这是不是需要Helix的快慢中枢?

  • helix的快慢中枢管理的是不同的部分。
    • 慢中枢负责大脑VLA的宏观指令,而快中枢负责WBC层面的身体实时控制
  • \(\pi 0.7\)中有主干(backbone)和动作专家(Action Expert)两部分
    • 主干:消化和理解先前高层策略生成的“1.抓把手;2.开门;3.放红薯”这样的 todo list,它还时刻通过摄像头盯着全局画面,进行庞大的计算将其转化为一种高维的数学状态(即神经网络的激活状态)。
    • 运动专家:利用流匹配(Flow Matching) 技术,去读取主干大脑此刻的神经网络中神经元状态,然后瞬间将其转化为一段包含 50 个时间步的物理电机控制信号(动作块),指挥机械臂丝滑地抓过去。如果抓取时手稍微滑了一下,动作专家可以在物理轨迹上顺滑地纠正;但如果红薯彻底没了,它必须等主干大脑给它新的指令