发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

小米开源VLA大模型Xiaomi-Robotics-0:兼具视觉语言理解与高性能实时执行能力

2026-02-12来源:快讯编辑:瑞雪

小米今日正式发布开源视觉语言动作(VLA)模型Xiaomi-Robotics-0,该模型以47亿参数规模实现视觉语言理解与实时动作执行的双重突破,在仿真测试与真实机器人任务中均刷新多项最优成绩。其核心创新在于构建了"感知-决策-执行"的完整闭环系统,能够在消费级显卡上完成每秒30帧以上的实时推理,为机器人物理智能的泛化应用开辟新路径。

模型架构采用创新的Mixture-of-Transformers(MoT)设计,通过双模块协同工作实现复杂任务处理。视觉语言大脑(VLM)模块基于多模态大模型构建,可解析"整理桌面"等模糊指令,并从4K分辨率的视觉输入中识别物体空间关系。动作执行小脑(Action Expert)则引入多层Diffusion Transformer(DiT)结构,通过生成包含16个连续动作的"动作块",配合流匹配技术确保毫米级操作精度。这种设计使机器人在叠毛巾任务中展现出类似人类的柔性操作能力,能自适应调整力度防止织物撕裂。

针对传统VLA模型训练中常见的"理解退化"问题,研发团队提出混合训练范式。在预训练阶段,模型同时接触1200万帧机器人操作数据与2.3亿张多模态图像,通过动作提议机制强制VLM特征空间与动作空间对齐。专项训练阶段则冻结VLM参数,仅优化DiT模块的条件生成能力,最终实现98.7%的物体检测准确率与92.3%的视觉问答正确率。这种训练方式使模型在保持认知能力的同时,动作生成频率提升3倍。

为解决推理延迟导致的动作卡顿,团队开发了异步推理框架与Clean Action Prefix技术。通过解除模型推理与机械臂运动的同步约束,配合将前序动作作为输入的轨迹平滑算法,使双臂机器人在积木拆解任务中实现0.2秒内的突发响应。特殊设计的Λ形注意力掩码进一步强化模型对实时视觉反馈的关注度,在环境光线突变测试中,机器人动作偏差率较传统模型降低67%。

在性能验证环节,Xiaomi-Robotics-0在LIBERO仿真环境中取得91.4%的任务完成率,较第二名模型提升14.2个百分点。真实场景测试中,双臂机器人成功完成包含47个步骤的毛巾折叠任务,操作精度达到0.5毫米级。多模态能力评估显示,该模型在具身交互基准测试中得分较基线模型提高31%,特别是在工具使用和空间推理等复杂场景中表现突出。

目前,小米已开放模型技术文档、训练代码及预训练权重。开发者可通过GitHub获取基础框架,在Hugging Face平台下载完整模型包。该开源项目特别提供跨本体适配接口,支持机械臂、移动机器人等不同形态设备的快速部署,为工业自动化、家庭服务等场景提供可扩展的智能解决方案。

西门子携手nVent打造100MW AI数据中心蓝图 赋能超大规模AI建设
西门子(Siemens)与nVent公布了一项联合参考架构,旨在帮助运营商加速超大规模AI数据中心的建设。 西门子与nVent的联合架构旨在支持运营商构建下一波支持AI的数据中心,在这些设施中,性能、可持续性…

2026-02-12

iOS 26.3 正式版更新:数据迁移优化 新功能与漏洞修复齐登场
那么在 iOS 26.3 中,显然也带来了一些与国行用户暂时无缘的功能。 面向欧盟用户,苹果在新系统中新增了一个名为「通知转发」的功能。作为一个大版本更新,苹果在 iOS 26.3 中修复了海量的系统漏洞…

2026-02-12

千元内解码新选择:SMSL SU-2用“减法”诠释纯粹音质追求
以前或许还真的难寻,但就在不久前,我发现双木三林(SMSL)推出了一台SU-2解码器,它看起来就是这样一部把“减法”做到底的作品。当一些竞品在宣传文案里还在强调“我们什么都有”时,SMSL SU-2选择说:我…

2026-02-12

苹果再突破!iPhone 18 Pro系列将首发C2基带 开启5G卫星连接新时代
简单来说,苹果C2基带与NR-NTN标准的结合,被业内视为5G卫星连接技术的一次重大变革,它彻底打破了地理环境对通信的限制。在实际使用中,iPhone 18 Pro系列将能够把每一颗运行中的低轨道卫星视为一…

2026-02-12