发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

蚂蚁灵波再发力!LingBot-VA让机器人“脑补”未来,通用机器人迎新突破

2026-01-31来源:快讯编辑:瑞雪

机器人领域迎来重大突破——蚂蚁灵波团队近日开源了全球首个面向通用机器人控制的因果视频-动作世界模型LingBot-VA,这项技术让机器人首次具备"脑补未来"的能力。传统机器人依赖"观察-反应"模式,如同条件反射般执行动作,而LingBot-VA通过自回归视频预测技术,在执行动作前会先在脑海中推演未来数秒的画面,这种"想象力决策"机制为机器人控制开辟了全新路径。

该模型的核心创新在于解耦了传统VLA(视觉-语言-动作)架构中的表征缠绕问题。研究团队采用"先想象世界,再反推动作"的两步策略:首先通过视频世界模型预测未来视觉状态,再利用逆向动力学模型推导所需动作。这种设计使机器人能够完成三类高难度任务:在长时序任务中(如准备早餐),机器人可精准记忆操作步骤;高精度任务中(如擦拭试管),动作精度达到毫米级;面对可变形物体(如折叠衣物),能通过视频推演预判物体形变。真机测试显示,机器人完成拧螺丝任务时,动作流畅度与人类操作几乎无异。

技术实现层面,团队在三个维度取得突破。架构设计上,视频Token与动作Token构成自回归交错序列,配合因果注意力机制确保模型只能使用历史信息。通过KV-cache技术赋予模型长期记忆能力,使其能清晰追溯三步前的操作状态。在模型分工方面,Mixture-of-Transformers架构将视觉推演与动作控制分离:视频流负责复杂视觉分析,动作流专注精准运动控制,两者通过共享注意力机制实现信息互通。工程优化环节,部分去噪技术允许模型从含噪中间状态提取关键信息,异步推理机制使动作计算与执行并行进行,FDM接地技术则通过真实数据持续校正模型想象,防止出现脱离现实的幻觉。

在RoboTwin 2.0双臂协作基准测试中,LingBot-VA展现出显著优势:简单场景成功率达92.93%,复杂场景成功率91.55%,分别超出第二名4.2%和4.6%。随着任务难度增加,其领先幅度扩大至9%以上。在LIBERO基准测试中,该模型更以98.5%的平均成功率刷新纪录。实验数据显示,LingBot-VA具有三大核心能力:长期记忆能力使其在计数任务中精准记录操作次数;少样本适应能力仅需50条演示数据即可掌握新任务;泛化能力允许模型识别并操作不同颜色、形状或摆放位置的同类物体。

此次开源是蚂蚁灵波四天技术发布计划的收官之作。此前三天,团队已陆续开源LingBot-Depth(增强视觉感知)、LingBot-VLA(打通语言视觉动作接口)、LingBot-World(构建可预测世界模型)三个项目。四者构成完整技术链条:从清晰感知到理解世界,从构建想象到指导行动,推动通用机器人进入视频推理时代。这种技术范式已引发行业连锁反应,谷歌Project Genie项目、宇树科技UnifoLM-VLA-0等相继开源,海外媒体评价称:"蚂蚁集团通过完整开源工具包,在全球机器人领域主导权争夺中迈出战略性一步。"

OpenAI掌门人奥尔特曼主力机曝光,力赞苹果iPhone Air轻薄酷炫
IT之家 1 月 29 日消息,在 OpenAI 的开年答疑会上,该公司首席执行官山姆 · 奥尔特曼(SamAltman)公开晒出其主力手机,使用配备 MagSafe 钱包的苹果 iPhone Air。 I…

2026-01-31

智慧园区新图景:以数字技术为笔 绘就可持续发展新画卷
这样的智慧园区不仅能够吸引更多企业入驻,也为居住者提供了更舒适与安全的生活环境。此外,智能安防系统为企业营造了安全的环境,提高员工的工作安全感与生产效率。此外,安全性与居住体验得到了提升,通过有效的监控系统和…

2026-01-31

2025流量卡办理全攻略:个人避坑选套餐+企业高效办卡秘籍大公开
特别温馨提醒:在选择流量卡之前,请务必仔细查看套餐的详细说明,尤其是年龄限制、地区覆盖范围等关键条件,避免因不符合要求导致开卡失败,耽误你的使用哦~我们将手把手带你避开个人选套餐的所有陷阱,并深入解读企业批…

2026-01-31