小米机器人新突破：Xiaomi-Robotics-0发布，消费级显卡助力具身智能普及-移动智能-发现者网

雷军在微博上宣布，小米机器人团队正式推出并开源了一款全新的具身智能VLA模型——Xiaomi-Robotics-0，同时首次公开了该模型在真实机器人上的运行画面。这一发布标志着小米在机器人领域迈出了重要一步，解决了多项行业长期存在的技术难题。

Xiaomi-Robotics-0拥有47亿参数，集成了视觉语言理解与高性能实时执行能力。该模型在三大主流仿真测试中表现优异，全面超越行业标杆，取得全项SOTA成绩。更令人瞩目的是，它在真实机器人上实现了流畅的动作表现，彻底改变了传统机器人动作卡顿、反应迟缓的形象。

传统VLA模型面临两大核心挑战：一是推理延迟高导致动作不连贯，二是依赖昂贵专业显卡，硬件门槛高。这些问题使得先进机器人技术难以走出实验室，无法在现实场景中广泛应用。Xiaomi-Robotics-0通过创新设计，成功突破了这些限制。

该模型最大的突破在于能在普通消费级显卡上实现实时推理，大幅降低了技术落地成本。这一特性使其区别于同类产品，为更多开发者和研究机构提供了接触前沿技术的机会。小米通过自研的Mixture-of-Transformers混合架构，为机器人构建了"双脑协同系统"，有效解决了传统模型存在的效率问题。

这个双脑系统由视觉语言大脑（VLM）和动作执行小脑（DiT）组成。VLM负责理解人类指令和环境信息，能够准确解析模糊指令中的空间关系和任务目标；DiT则专注于将指令转化为流畅动作，通过流匹配技术确保动作精准稳定。这种设计使机器人动作更加自然，接近人类操作水平。

研发团队采用两阶段训练方案提升模型性能。第一阶段通过跨模态预训练，使模型在掌握动作技能的同时保持基础认知能力；第二阶段通过后训练优化，解决真机运行中的动作断层问题。这些技术改进使机器人能够稳定完成叠毛巾、拆积木等复杂物理任务。

从公开的真机演示视频可以看到，机器人处理柔性物体时表现出色，能够自动调整动作策略完成叠放任务；操作刚性积木时手眼协调稳定，动作精准无误。这种对不同材质物体的适应能力，展现了模型强大的物理智能和环境感知能力。

在Libero、Calvin、SimplerEnv等国际主流测试集中，Xiaomi-Robotics-0与超过30款主流模型对标，在所有基准测试中均取得最优成绩。这些数据证实了该模型在仿真环境和真实场景中的全面领先地位。

小米此次选择将技术成果全量开源，包括技术文档、GitHub代码和Hugging Face模型权重全部公开。这一举措打破了行业技术壁垒，使全球开发者都能免费使用和二次开发相关资源，将加速具身智能技术的普及和应用创新。

雷军透露，小米已持续多年布局机器人领域，目前仍在全球招募顶尖人才。此次发布的Xiaomi-Robotics-0只是阶段性成果，团队正在攻关下一代技术，未来将带来更多创新突破。