小米发布并开源首款机器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多项纪录-文化传媒-发现者网

小米近日在具身智能领域迈出重要一步，正式推出并开源首款机器人视觉语言动作（VLA）大模型Xiaomi-Robotics-0。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合，在消费级显卡上即可完成毫秒级推理，成功突破传统VLA模型因延迟导致的物理世界交互瓶颈，多项性能指标刷新行业纪录。

针对现有VLA模型普遍存在的"大脑发达但肢体迟缓"问题，研发团队创新采用MoT混合架构构建双核心体系。其中多模态视觉语言大模型（VLM）作为认知中枢，可解析人类模糊指令并精准识别三维空间关系；多层扩散Transformer（DiT）构成的运动控制模块则通过"动作块"生成技术，将复杂动作拆解为高频执行单元，配合流匹配算法实现肢体运动的毫米级精度控制。这种"认知-执行"分离设计使机器人既能理解"把水杯递给穿红衣服的人"这类抽象指令，又能流畅完成抓取、递送等连续动作。

在训练体系构建上，小米开创性设计两阶段强化方案。跨模态预训练阶段通过Action Proposal机制建立视觉特征与动作空间的映射关系，在冻结VLM参数的同时专项优化DiT模块，确保模型同时具备物体识别、逻辑推理等基础能力与操作技能。后训练阶段引入异步推理框架破解真机部署难题，Clean Action Prefix技术保障动作序列的连贯性，Λ-shape注意力掩码则使模型更聚焦实时视觉反馈，环境适应速度提升3倍以上。

目前该项目已实现全面开源，技术文档、训练代码及预训练权重均对外开放。小米机器人实验室同步启动全球人才招募计划，重点引进多模态学习、运动控制、人机交互等领域的顶尖专家，持续探索物理世界与数字智能的融合边界。此次开源不仅为学术界提供先进研究基线，更为工业界落地具身智能应用扫清关键技术障碍。

中国燃气携手尼日利亚伙伴共绘能源合作新蓝图推进绿色发展

2026-02-12

iOS 26.3打破壁垒：iPhone与安卓无缝换机，用户换机自由新选择

长期以来，苹果与安卓两大生态就像两道无法逾越的高墙，用户一旦选择其中一方，就意味着要被数据和习惯牢牢绑定。这次iOS 26.3带来的原生换机功能，无疑是打破这一僵局的“史诗级升级”。苹果的这一步，既是对用户需…

2026-02-12

开放式耳机怎么选？从佩戴到音质，8款热门型号深度测评与选购指南

音质方面，耳机内置有17mm大尺寸动圈单元，并支持360°全景环绕音效，中高频的解析力不错，人声的表现清晰自然，听流行音乐和轻音乐较为舒适。同时在漏音控制方面表现良好，低频量感和下潜深度在开放式耳机中属于优…

2026-02-12

中国移动“九天AlphaData”国际评测夺冠引领智能数据分析新潮流

为此，九天AlphaData应运而生——它深度融合AI技术，集成数据问答、多轮对话、智能决策与可视化图表生成等能力，覆盖从数据查询、处理、分析到展示的全流程，真正实现了数据驱动决策的闭环。在指标问答与经营分析…

2026-02-12

中国电信北斗短信业务获批持续创新拓展多元场景赋能产业新未来

其中，天通无人机电子信标产品整合物联网、5G、北斗定位及高精度惯导等技术，依托“卫星+ 5G”天地一体通信能力，为无人机在复杂环境或远距离飞行时提供实时位置跟踪、状态监测与应急通信保障；北斗+智能时空云，以全…

2026-02-12

内存价格飙升显成效！铠侠财报超预期存储市场迎来强劲增长期

2026-02-12

“大模型第一股”智谱：GLM Coding Plan价格调整，GLM-5上线开源引关注

2026-02-12

2025年网易在线游戏净收入近900亿聚焦AI整合能力精品自研+长线运营筑牢优势

2026-02-12

全球AI算力与存储变革共振科创芯片ETF（589100）盘中活跃涨超2.2%

2026-02-12