小米近日在具身智能领域迈出重要一步,正式推出并开源首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,在消费级显卡上即可完成毫秒级推理,成功突破传统VLA模型因延迟导致的物理世界交互瓶颈,多项性能指标刷新行业纪录。
针对现有VLA模型普遍存在的"大脑发达但肢体迟缓"问题,研发团队创新采用MoT混合架构构建双核心体系。其中多模态视觉语言大模型(VLM)作为认知中枢,可解析人类模糊指令并精准识别三维空间关系;多层扩散Transformer(DiT)构成的运动控制模块则通过"动作块"生成技术,将复杂动作拆解为高频执行单元,配合流匹配算法实现肢体运动的毫米级精度控制。这种"认知-执行"分离设计使机器人既能理解"把水杯递给穿红衣服的人"这类抽象指令,又能流畅完成抓取、递送等连续动作。
在训练体系构建上,小米开创性设计两阶段强化方案。跨模态预训练阶段通过Action Proposal机制建立视觉特征与动作空间的映射关系,在冻结VLM参数的同时专项优化DiT模块,确保模型同时具备物体识别、逻辑推理等基础能力与操作技能。后训练阶段引入异步推理框架破解真机部署难题,Clean Action Prefix技术保障动作序列的连贯性,Λ-shape注意力掩码则使模型更聚焦实时视觉反馈,环境适应速度提升3倍以上。
目前该项目已实现全面开源,技术文档、训练代码及预训练权重均对外开放。小米机器人实验室同步启动全球人才招募计划,重点引进多模态学习、运动控制、人机交互等领域的顶尖专家,持续探索物理世界与数字智能的融合边界。此次开源不仅为学术界提供先进研究基线,更为工业界落地具身智能应用扫清关键技术障碍。
