雷军宣布小米开源具身智能VLA模型Xiaomi-Robotics-0，性能领先且动作连贯灵敏-家电行业-发现者网

小米机器人团队近日宣布，正式开源其最新研发的具身智能VLA模型——Xiaomi-Robotics-0。该模型以47亿参数的规模，结合MoT混合架构，通过多模态VLM大模型作为基础，并嵌入多层DiT结构，实现了通用理解与精细控制的双重突破。

在性能测试中，Xiaomi-Robotics-0展现出显著优势。该模型在Libero、Calvin和SimplerEnv等主流测试集上，与30种同类模型对比后，均取得当前最优成绩。更值得关注的是，其消费级硬件即可支持实时推理，为机器人技术的大规模应用提供了可能。

针对传统VLA模型普遍存在的推理延迟问题，研发团队创新性地采用异步推理模式与Λ-shape Attention Mask机制。这一设计有效解决了“动作断层”现象，使机器人在执行积木拆解、叠毛巾等复杂任务时，能够保持动作连贯性并快速响应环境变化。实验数据显示，该模型在真实场景中的手眼协调能力显著提升。

技术架构方面，Xiaomi-Robotics-0通过跨模态预训练框架，在保留物体检测、视觉问答等基础能力的同时，实现了多模态信息的深度融合。这种设计既保证了模型对复杂指令的理解能力，又通过分层控制机制确保了动作执行的精准度，为具身智能的落地应用开辟了新路径。