发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

小米发布并开源首款机器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多项纪录

2026-02-12来源:快讯编辑:瑞雪

小米近日在具身智能领域迈出重要一步,正式推出并开源首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,在消费级显卡上即可完成毫秒级推理,成功突破传统VLA模型因延迟导致的物理世界交互瓶颈,多项性能指标刷新行业纪录。

针对现有VLA模型普遍存在的"大脑发达但肢体迟缓"问题,研发团队创新采用MoT混合架构构建双核心体系。其中多模态视觉语言大模型(VLM)作为认知中枢,可解析人类模糊指令并精准识别三维空间关系;多层扩散Transformer(DiT)构成的运动控制模块则通过"动作块"生成技术,将复杂动作拆解为高频执行单元,配合流匹配算法实现肢体运动的毫米级精度控制。这种"认知-执行"分离设计使机器人既能理解"把水杯递给穿红衣服的人"这类抽象指令,又能流畅完成抓取、递送等连续动作。

在训练体系构建上,小米开创性设计两阶段强化方案。跨模态预训练阶段通过Action Proposal机制建立视觉特征与动作空间的映射关系,在冻结VLM参数的同时专项优化DiT模块,确保模型同时具备物体识别、逻辑推理等基础能力与操作技能。后训练阶段引入异步推理框架破解真机部署难题,Clean Action Prefix技术保障动作序列的连贯性,Λ-shape注意力掩码则使模型更聚焦实时视觉反馈,环境适应速度提升3倍以上。

目前该项目已实现全面开源,技术文档、训练代码及预训练权重均对外开放。小米机器人实验室同步启动全球人才招募计划,重点引进多模态学习、运动控制、人机交互等领域的顶尖专家,持续探索物理世界与数字智能的融合边界。此次开源不仅为学术界提供先进研究基线,更为工业界落地具身智能应用扫清关键技术障碍。

iOS 26.3打破壁垒:iPhone与安卓无缝换机,用户换机自由新选择
长期以来,苹果与安卓两大生态就像两道无法逾越的高墙,用户一旦选择其中一方,就意味着要被数据和习惯牢牢绑定。这次iOS 26.3带来的原生换机功能,无疑是打破这一僵局的“史诗级升级”。苹果的这一步,既是对用户需…

2026-02-12

开放式耳机怎么选?从佩戴到音质,8款热门型号深度测评与选购指南
音质方面,耳机内置有17mm大尺寸动圈单元,并支持360°全景环绕音效,中高频的解析力不错,人声的表现清晰自然,听流行音乐和轻音乐较为舒适。同时在漏音控制方面表现良好,低频量感和下潜深度在开放式耳机中属于优…

2026-02-12

中国移动“九天AlphaData”国际评测夺冠 引领智能数据分析新潮流
为此,九天AlphaData应运而生——它深度融合AI技术,集成数据问答、多轮对话、智能决策与可视化图表生成等能力,覆盖从数据查询、处理、分析到展示的全流程,真正实现了数据驱动决策的闭环。在指标问答与经营分析…

2026-02-12

中国电信北斗短信业务获批 持续创新拓展多元场景赋能产业新未来
其中,天通无人机电子信标产品整合物联网、5G、北斗定位及高精度惯导等技术,依托“卫星+ 5G”天地一体通信能力,为无人机在复杂环境或远距离飞行时提供实时位置跟踪、状态监测与应急通信保障;北斗+智能时空云,以全…

2026-02-12