一家成立仅两年的机器人初创公司Physical Intelligence,凭借其最新发布的机器人基础模型π0.7,在人工智能与机器人领域引发了广泛关注。这款模型赋予机器人执行未明确训练任务的能力,从操作空气炸锅烹饪红薯,到在从未接触过衣物折叠数据的工业机器人上成功叠好T恤,展现出令人惊叹的泛化能力。
π0.7的突破性在于其能力并非预先设计,而是在训练过程中自然“涌现”。研究科学家Ashwin Balakrishna分享了一个典型案例:他随机购买了一个齿轮组,询问机器人能否转动它,结果机器人成功完成了任务。这种超越机械记忆、能够组合技能解决新问题的能力,在机器人领域尚属首次,标志着机器人AI可能正接近类似大语言模型领域的“GPT-2时刻”——能力开始以超出基础数据预期的方式增长。
在空气炸锅实验中,π0.7的表现尤为引人注目。尽管模型仅见过两个相关片段,未接触过完整的“拿起红薯-打开炸篮-放入-关闭-启动”操作链,但当研究者通过语言逐步指导时,它能够精准跟随指令完成整个烹饪流程。早期实验成功率仅5%,但通过优化提示工程,成功率迅速提升至95%。这一现象与大语言模型的“涌现”能力类似,模型能够将从未同时出现的技能重新组合,展现出强大的适应性。
跨具身迁移实验则进一步证明了π0.7的物理形态适应性。研究团队在一个完全不同的机器人平台——双臂UR5e系统上测试π0.7。这款工业机械臂手臂更长、更重,夹爪精度较低,且研究者未用其收集过任何衣物折叠数据。然而,π0.7不仅成功折叠了T恤和毛巾,任务进度达到85.6%,成功率80%,几乎与拥有375小时远程操作经验的顶级人类操作员持平。更关键的是,π0.7没有盲目模仿训练数据中的动作,而是根据UR5e的物理特性调整策略,采用垂直抓取而非源机器人常用的倾斜抓取,体现了对任务目标的理解和身体特性的适配。
在常规灵巧操作任务中,π0.7同样表现出色。与通过强化学习微调的专用模型π0.6*相比,π0.7在制作浓缩咖啡、组装盒子、削蔬菜皮等任务上达到或超越了专用模型的性能。例如,在衣物折叠任务中,π0.7的吞吐量甚至超过了RL专家模型;在需要记忆的任务中,它无需微调即可达到与专用记忆模型相似的水平。指令遵循方面,π0.7在14个开放式指令场景中的成功率显著高于前代模型,能够处理复杂指代指令,如“拿起最大盘子上的水果”,并结合子目标图像进一步提升性能。
π0.7的技术核心是一个约50亿参数的视觉-语言-动作模型(VLA),其架构包含视觉-语言骨干网络、动作专家模块、记忆机制和多模态上下文处理。训练数据涵盖多种机器人平台的演示数据、自主策略评估数据、人类远程操作干预数据、第一人称人类视频以及互联网非机器人数据。通过元数据标注区分数据质量,模型能够从次优数据中学习而不损害性能,同时利用“知识绝缘”技术稳定学习多模态上下文。


