发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

2025人形机器人“大脑”进化:多模态大模型赋能,开启万亿级新蓝海

2025-09-17来源:ITBEAR编辑:瑞雪

人形机器人行业正站在2025年的关键转折点上。随着具身智能技术与“物理AI”的深度融合,这类机器人不仅成为技术交汇的核心载体,更被视为继计算机、智能手机和智能汽车之后的下一代智能终端,其背后是万亿级市场的潜力。驱动这一变革的核心,在于机器人“大脑”的突破性进展——以多模态大模型为代表的技术,正在赋予机器人前所未有的自主决策与环境交互能力。

从发展历程看,机器人行业已迈入具身智能时代。早期的工业机器人(2008年前)仅能完成固定场景下的简单重复任务;协作机器人(2008-2015年)和智能机器人(2015-2023年)虽实现了可移动与初步自主,但仍受限于特定任务。如今的具身智能机器人凭借人工智能的赋能,能够在复杂环境中自主规划并完成复杂工作。例如,它们可以听懂人类语言后分解任务,在移动中识别物体并与环境交互,智能化程度与场景适应性实现了质的飞跃。

具身智能机器人的核心在于“大脑”“小脑”与“肢体的协同。其中,“大脑”对应决策交互模块,负责环境感知、行为控制与人机交互等高层级任务;“小脑”是运动控制模块,基于自动控制与机器人操作系统实现高精度运动;“肢体”则是执行模块,集成仿人机械臂、灵巧手等部件,完成具体动作。而“大脑”的核心支撑,正是具身智能大模型——通过多模态建模、强化学习与数据训练,它能像人类大脑一样管理机器人的各项功能,甚至理解需求、分解任务,减少对人类操作的依赖。

多模态大模型的出现,为机器人“大脑”突破高层级控制难题提供了关键技术支撑。传统单一模态模型存在明显局限:大语言模型(LLM)仅能理解文本,无法处理视觉等物理信息;视觉模型虽擅长感知,却缺乏推理能力。而多模态大模型(MLLM)融合了文本、图像、视频等多种信息,既保留了LLM的常识与推理能力,又具备视觉感知能力,更贴合人类“多感官认知世界”的方式。例如,它能直接通过图像识别环境中的物体,结合自然语言指令生成控制代码,让机器人完成“从抽屉取薯片”这类需要多步骤规划的任务——先移动到抽屉旁、打开抽屉、取出薯片,再送到用户手中,整个过程无需人类拆解动作。

全球科技巨头与科研团队已纷纷入局具身大模型研发。谷歌是该领域的重要推动者,先后推出SayCan、RT-1、PaLM-E、RT-2、RT-X等系列模型:SayCan首次实现“语言指令与物理可行性结合”,避免机器人生成超出自身能力的指令;RT-1将Transformer架构与机器人控制结合,通过视觉与语言数据训练输出动作指令;PaLM-E融合大语言模型与视觉模型,能拆解长程任务;RT-2成为首个“视觉-语言-动作(VLA)模型”,可直接通过复杂文本操控机械臂;最新的RT-X系列通过整合22种机器人、527项技能的数据集,将任务成功率提升至此前模型的三倍。

特斯拉则凭借“端到端算法”路线展现独特优势。其自动驾驶系统FSD V12采用纯神经网络控制,取代了30万行以上的传统代码,能直接从视频输入生成车辆操控指令,人工干预频率仅为前代的百分之一。如今,特斯拉正将这套技术迁移至人形机器人Optimus——早期Optimus甚至使用与汽车相同的计算机和摄像头,虽需微调“识别可驾驶空间”为“识别可行走空间”,但已证明车端与机器人端技术的通用性,为感知决策一体化提供了新路径。

国内团队同样表现亮眼。字节跳动推出的GR-2模型先在3800万个互联网视频片段上完成预训练,学习人类在家庭、办公室等场景的行为模式,再通过数据增强与多视角训练微调。该模型不仅能处理105项桌面任务且平均成功率达97.7%,还能端到端完成货箱间的物体拣选——即使面对透明、反光或柔软物体,甚至从未见过的辣椒、葡萄等物品,也能精准抓取,展现出强大的泛化能力。

然而,具身大模型的发展仍面临三大挑战。一是泛化性弱,目前模型在特定场景表现优异,但切换到施工工地、嘈杂后厨等复杂场景,成功率便骤降,核心原因在于机器人操作数据量不足、对错误容忍度低。二是实时性差,谷歌RT-2的推理频率仅1-5Hz,输出运动频率1-3Hz,导致机器人“反射弧”长达0.3-1秒,远低于人类与实际应用需求;Figure机器人的延迟甚至达到2-3秒,影响任务效率。三是数据采集难题,真实数据收集成本高、难度大,而合成数据若生成不当,易出现与真实数据差距大或样式单一的问题,难以支撑模型训练。

为保障“大脑”高效运转,云计算与边缘计算构成了重要外延支撑。云计算凭借强大的算力与存储能力,为大模型训练提供保障——例如谷歌PaLM-E模型融合220亿视觉参数与5400亿语言参数,其训练需依赖云计算的分布式处理能力;同时,云计算还能让机器人随时随地获取算法支持,提升灵活性。而边缘计算则弥补了云计算的短板,它将计算能力靠近机器人终端,降低数据传输时延与安全风险,尤其适合工业场景——部分工厂不愿将设备数据上传云端,边缘计算可在本地完成数据处理,保障隐私与运行安全。目前,德州仪器TDA4x处理器、特斯拉DOJO D1芯片等边缘算力模组,已开始应用于协作机器人与Optimus,推动“云-边”协同成为主流架构。

随着2025年人形机器人进入小批量量产阶段,全球数千台机器人将进入工厂场景训练,这无疑会加速“大脑”的迭代进化。未来,随着大模型泛化性、实时性的突破,以及云边协同架构的完善,人形机器人有望在工业制造、家庭服务等领域广泛落地,真正开启万亿级市场的想象空间,成为改变人类生产生活方式的重要力量。

未来十年科技新图景:智能硬件跃迁、AI赋能与网络无感化变革
本文将从智能硬件、AI 算法、未来网络、数字经济、安全体系等多个维度,分析科技浪潮下的核心趋势。 设备变得更聪明网络变得无形AI 成为能力底座数字经济成为主引擎安全体系成为关键支撑科技不是未来,而是现在正在发…

2025-11-15

WebRTC技术赋能物联网卡:解锁工业医疗驾驶毫秒级低时延通信新路径
WebRTC(网页实时通信)技术与物联网卡的深度融合,正通过 “协议优化 + 硬件适配 + 网络升级”,破解毫秒级响应难题。本文基于行业实践,解析 WebRTC 技术原理、物联网卡协同路径及场景落地效果,为…

2025-11-13

百度发布多项AI重磅成果,李彦宏:内化AI能力让智能不再是成本而是生产力
“当AI能力被内化,成为一种原生的能力,智能就不再是成本,而是生产力。”11月13日举办的2025百度世界大会上,百度创始人李彦宏演讲时表示,更应关心如何让AI跟每一项任务有机结合,“让AI成为企业发展和个人成长的

2025-11-13

2025年手机卡选卡指南:精准匹配需求,绕开合约套路与流量陷阱
•在运营商APP中查看过去三个月的平均流量使用量•检查你的通话时长记录•分析你最常用的APP类型(这会影响你对通用流量和定向流量的需求)有了这些数据,你就能更准确地判断自己需要什么样规模的套餐了。 •典型代…

2025-11-13

NAND闪存供应告急价格半年翻倍
近日,存储芯片市场正经历一场前所未有的供应风暴,从DRAM产品蔓延至NAND闪存领域。尽管产品价格持续攀升,市场对存储器的需求却呈现逆势增长态势,供需矛盾进一步加剧。行业分析指出,DRAM与NAND闪存的短缺局面短期内难以缓解,甚至可能长期持续。

2025-11-12

中国电信携手多方完成2万公里中轨NTN在轨验证
中国电信研究院携手浙江电信,联合清华大学、上海清申科技以及北京捷蜂创智科技,依托云网融合大科创装置的天地一体卫星试验能力,成功实现了NTN(非地面网络)制式在中轨卫星条件下的在轨技术验证。这一突破性成果为远洋、极地等特殊场景的通信需求,以及6G天地一体组网的发展奠定了关键技术基础。

2025-11-11

Kinera Verdandi薇儿丹蒂TWS新品登场,双模连接续航持久,共赴听觉盛宴
在发布会前夕,Kinera广发“邀请函”,邀请耳机玩家来到现场先行一步体验这支旗舰TWS新品:现场共安排了两款配色的样机供试玩,分别是寰宇黑和阙夜紫,我自己就比较喜欢寰宇黑这个配色,低调奢华、质感非凡。 虽说…

2025-11-11

智云上海赋能链家:AI与数据驱动,智慧门店焕新城市服务生态
如今,链家总部的数据大屏呈现出精准的运营数据:“今日实际到店XXX人,到店率XX%,活力值XX人次……”这些实时数据不仅勾勒出门店运营的新图景,更推动着服务效能与客户体验的双重提升。 更令人振奋的是,“智慧…

2025-11-09

苹果手机通讯录丢失别慌!5个实用方法帮你轻松找回联系人
通讯录恢复方法3.数据蛙苹果恢复专家若您此前未通过iCloud对通讯录进行备份,要找回丢失的联系人,就需依靠专业数据恢复工具。要是你之前在手机上备份过通讯录,那找回通讯录好友就特别轻松,直接一键恢复就搞定了…

2025-11-07

​小米王化回应“小米通话”停运:业务聚焦调整,与通话功能无关​
凤凰网科技讯 11月6日,小米通话昨日发布公告称,将于2025年12月3日停止服务,用户账号中的全部数据都将被彻底清除。 对此,小米公关负责人王化发文表示:“小米通话”作为小米即时通讯应用“米聊”的一项功能,…

2025-11-07