小米机器人团队近日宣布,正式开源其最新研发的具身智能VLA模型——Xiaomi-Robotics-0。该模型以47亿参数的规模,结合MoT混合架构,通过多模态VLM大模型作为基础,并嵌入多层DiT结构,实现了通用理解与精细控制的双重突破。
在性能测试中,Xiaomi-Robotics-0展现出显著优势。该模型在Libero、Calvin和SimplerEnv等主流测试集上,与30种同类模型对比后,均取得当前最优成绩。更值得关注的是,其消费级硬件即可支持实时推理,为机器人技术的大规模应用提供了可能。
针对传统VLA模型普遍存在的推理延迟问题,研发团队创新性地采用异步推理模式与Λ-shape Attention Mask机制。这一设计有效解决了“动作断层”现象,使机器人在执行积木拆解、叠毛巾等复杂任务时,能够保持动作连贯性并快速响应环境变化。实验数据显示,该模型在真实场景中的手眼协调能力显著提升。
技术架构方面,Xiaomi-Robotics-0通过跨模态预训练框架,在保留物体检测、视觉问答等基础能力的同时,实现了多模态信息的深度融合。这种设计既保证了模型对复杂指令的理解能力,又通过分层控制机制确保了动作执行的精准度,为具身智能的落地应用开辟了新路径。


