小米开源VLA大模型Xiaomi-Robotics-0：兼具视觉语言理解与高性能实时执行能力-汽车出行-发现者网

小米今日正式发布开源视觉语言动作（VLA）模型Xiaomi-Robotics-0，该模型以47亿参数规模实现视觉语言理解与实时动作执行的双重突破，在仿真测试与真实机器人任务中均刷新多项最优成绩。其核心创新在于构建了"感知-决策-执行"的完整闭环系统，能够在消费级显卡上完成每秒30帧以上的实时推理，为机器人物理智能的泛化应用开辟新路径。

模型架构采用创新的Mixture-of-Transformers（MoT）设计，通过双模块协同工作实现复杂任务处理。视觉语言大脑（VLM）模块基于多模态大模型构建，可解析"整理桌面"等模糊指令，并从4K分辨率的视觉输入中识别物体空间关系。动作执行小脑（Action Expert）则引入多层Diffusion Transformer（DiT）结构，通过生成包含16个连续动作的"动作块"，配合流匹配技术确保毫米级操作精度。这种设计使机器人在叠毛巾任务中展现出类似人类的柔性操作能力，能自适应调整力度防止织物撕裂。

针对传统VLA模型训练中常见的"理解退化"问题，研发团队提出混合训练范式。在预训练阶段，模型同时接触1200万帧机器人操作数据与2.3亿张多模态图像，通过动作提议机制强制VLM特征空间与动作空间对齐。专项训练阶段则冻结VLM参数，仅优化DiT模块的条件生成能力，最终实现98.7%的物体检测准确率与92.3%的视觉问答正确率。这种训练方式使模型在保持认知能力的同时，动作生成频率提升3倍。

为解决推理延迟导致的动作卡顿，团队开发了异步推理框架与Clean Action Prefix技术。通过解除模型推理与机械臂运动的同步约束，配合将前序动作作为输入的轨迹平滑算法，使双臂机器人在积木拆解任务中实现0.2秒内的突发响应。特殊设计的Λ形注意力掩码进一步强化模型对实时视觉反馈的关注度，在环境光线突变测试中，机器人动作偏差率较传统模型降低67%。

在性能验证环节，Xiaomi-Robotics-0在LIBERO仿真环境中取得91.4%的任务完成率，较第二名模型提升14.2个百分点。真实场景测试中，双臂机器人成功完成包含47个步骤的毛巾折叠任务，操作精度达到0.5毫米级。多模态能力评估显示，该模型在具身交互基准测试中得分较基线模型提高31%，特别是在工具使用和空间推理等复杂场景中表现突出。

目前，小米已开放模型技术文档、训练代码及预训练权重。开发者可通过GitHub获取基础框架，在Hugging Face平台下载完整模型包。该开源项目特别提供跨本体适配接口，支持机械臂、移动机器人等不同形态设备的快速部署，为工业自动化、家庭服务等场景提供可扩展的智能解决方案。

西门子携手nVent打造100MW AI数据中心蓝图赋能超大规模AI建设

西门子（Siemens）与nVent公布了一项联合参考架构，旨在帮助运营商加速超大规模AI数据中心的建设。西门子与nVent的联合架构旨在支持运营商构建下一波支持AI的数据中心，在这些设施中，性能、可持续性…

2026-02-12

iOS 26.3 正式版更新：数据迁移优化新功能与漏洞修复齐登场

那么在 iOS 26.3 中，显然也带来了一些与国行用户暂时无缘的功能。面向欧盟用户，苹果在新系统中新增了一个名为「通知转发」的功能。作为一个大版本更新，苹果在 iOS 26.3 中修复了海量的系统漏洞…

2026-02-12

千元内解码新选择：SMSL SU-2用“减法”诠释纯粹音质追求

以前或许还真的难寻，但就在不久前，我发现双木三林（SMSL）推出了一台SU-2解码器，它看起来就是这样一部把“减法”做到底的作品。当一些竞品在宣传文案里还在强调“我们什么都有”时，SMSL SU-2选择说：我…

2026-02-12

苹果再突破！iPhone 18 Pro系列将首发C2基带开启5G卫星连接新时代

简单来说，苹果C2基带与NR-NTN标准的结合，被业内视为5G卫星连接技术的一次重大变革，它彻底打破了地理环境对通信的限制。在实际使用中，iPhone 18 Pro系列将能够把每一颗运行中的低轨道卫星视为一…

2026-02-12

电子布市场价格涨势强劲六家券商齐看好后市涨价潜力

2026-02-12

太空与马斯克光伏成焦点，科创新能源ETF易方达成分股多股上涨

2026-02-12