今日,小米在机器人领域抛出一枚重磅炸弹——小米机器人团队正式发布并开源全新具身智能VLA模型Xiaomi-Robotics-0,其真机运行画面首次对外公开,瞬间引发行业高度关注。
长久以来,机器人模型发展面临诸多阻碍。一方面,传统VLA模型虽参数规模可观、泛化能力不错,但在真实物理世界中,推理延迟高的问题极为突出,导致机器人动作断断续续,如同“延迟卡顿的木偶”,难以像人类一样自然流畅地操作,被网友戏称为“反应迟钝的木头人”。另一方面,具备高性能的模型往往依赖昂贵的专业显卡才能运行,普通开发者和小团队根本无力承担,使得先进技术只能被困在实验室,无法实现落地普及。不少模型还存在“仿真测试成绩优异,一上真机就表现不佳”的尴尬状况,无法稳定完成叠毛巾、拆积木等真实物理任务,理论与实操严重脱节。
此次小米推出的Xiaomi-Robotics-0模型,正是为解决这些行业难题而来。该模型拥有47亿参数规模,兼具视觉语言理解与高性能实时执行能力。在Libero、Calvin、SimplerEnv三大全球主流具身智能测试集里,它对标超过30款主流模型,在所有基准测试中全部斩获SOTA(State-of-the-Art,即当前公开可验证的最先进、最高水平),真正实现了“仿真通、真机强、多模态能力不丢失”的重大突破。
Xiaomi-Robotics-0最具颠覆性的亮点在于,它能在普通消费级显卡上实现实时推理,一举打破了高端机器人模型“只能实验室跑、普通人用不起”的困境,大幅降低了具身智能技术的落地门槛。这意味着普通开发者无需斥巨资购买专业显卡,也能让模型稳定运行,为更多人参与机器人技术研发提供了可能。
小米能够实现这一突破,关键在于自研的Mixture-of-Transformers(MoT)混合架构。这一架构可看作是为机器人打造的“双脑协同系统”,兼顾决策与执行效率。其中,视觉语言大脑(VLM)负责理解人类指令和感知环境,即使面对“把毛巾叠好”这类模糊指令,也能精准把握空间关系和任务目标,保留了多模态理解能力,这是此前许多VLA模型所不具备的优势。动作执行小脑(DiT)则专注于将指令转化为流畅动作,生成连续的“动作块”,并通过流匹配技术确保动作精准稳定,让机器人告别机械卡顿,动作灵活度接近人类,从根源上解决了传统模型动作断层的问题。
为了让机器人既“聪明”又“能干”,小米团队还设计了独特的两阶段训练方案。在第一阶段,通过跨模态预训练,让模型在学习动作的同时,不丢失物体识别、视觉问答等基础能力,避免出现“练了手工、废了脑子”的情况。同时,利用Action Proposal机制使VLM的特征空间与动作空间对齐,为后续实操奠定基础。在第二阶段,通过后训练优化,采用异步推理模式从机制上解决真机“动作断层”问题,搭配Clean Action Prefix让动作轨迹连续不抖动,借助Λ-shape Attention Mask让机器人聚焦当前视觉反馈、摆脱历史惯性,即使环境发生变化,也能即时调整,大幅提升环境适配能力。
从曝光的真机视频中可以直观看到,Xiaomi-Robotics-0模型在处理不同物体时表现出色。面对软塌塌的毛巾,它会先铺平,再对折、整理整齐,对于多余的毛巾还会主动放回原位;面对刚性积木,它能稳妥地一步步拆解,手眼协调极为稳定,不会出现卡顿或失误。无论是软质材料还是硬质物件,都能从容应对,充分展现了物理智能真正落地的成果。
值得一提的是,小米此次展现出了强大的格局,将Xiaomi-Robotics-0成果全量开源。技术主页、GitHub开源代码、Hugging Face模型权重全部公开,全球开发者都能免费使用、进行二次开发,相关资源可在各大平台直接获取。这一举措彻底打破了大厂对具身智能核心技术的垄断,让原本高高在上的具身智能技术真正向行业敞开大门,普通开发者也能参与其中,加速整个行业的技术迭代。
雷军在微博中透露,小米早已在机器人赛道深度布局,目前仍在全球招募顶尖人才,团队还在持续冲刺下一代技术。此次发布的Xiaomi-Robotics-0只是阶段性研究成果,未来或许还会有更多惊喜等待着我们。

