发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

哥大博士突破机器人“恐怖谷”!自监督学习让机器人唇部“活”起来,11种语言同步无压力

2026-02-10来源:快讯编辑:瑞雪

在人机交互领域,如何让机器人拥有更自然的面部表情始终是科研人员关注的焦点。近期,哥伦比亚大学博士胡宇航带领团队在面部机器人研究上取得突破性进展,其研发的Emo面部机器人通过创新技术实现了与人类语音同步的唇部运动,相关成果登上《科学·机器人学》封面,引发学界与产业界的广泛关注。

传统机器人研发往往聚焦于运动能力或操作性能,但胡宇航团队选择了一条差异化路径——赋予机器人情感表达能力。这项研究始于哥伦比亚大学的博士课题,经过两年积累已在《科学》《自然》子刊发表三篇论文。团队发现,嘴唇作为人类交流中动作最频繁的面部器官,其运动复杂性远超想象:不仅由多组肌肉群协同驱动,还需同步传递语言、情感与社交信号,对时间精度要求极高。

针对这一挑战,研究团队摒弃了传统基于固定音素-视位映射的规则方法。该方法需为每个音素设计特定嘴型,但存在三大缺陷:无法适应不同语速与情绪状态下的发音差异;多语言场景需重新设计规则,工作量巨大;硬件升级后需彻底重构动作系统。更关键的是,人类发音中音素与嘴型并非简单对应,而是受语境、语速、情绪等多重因素影响,呈现高度连续的动态特征。

团队提出的解决方案是构建数据驱动的自监督学习系统。该系统分为两个阶段:首先通过"照镜子"训练建立机器人自我模型——随机生成数千种面部表情并观察反馈,使系统掌握自身硬件的运动边界;随后引入人类视频数据,学习嘴唇运动的统计规律与高层时序结构,并通过自我模型将其转化为机器人可执行的动作。这种设计有效避免了跨形态直接模仿导致的域错配问题,为自然唇部运动奠定了基础。

在评估方法上,研究团队创新性地采用合成参考视频作为基准,通过变分自编码器潜空间计算机器人唇部运动与参考视频的偏差。该方法突破了传统二维关键点检测易受噪声干扰的局限,能够精准刻画嘴型动态与时序结构的差异,为连续语音与多语言场景下的音频-视觉同步误差评估提供了客观标准。

实验数据显示,该系统在11种语言中均能实现自然唇部同步,包括英语、法语、日语、中文等。这种跨语言能力源于模型对底层肌肉运动模式的学习——它捕捉的是声音节奏与嘴唇动作间的共性规律,而非特定语言的发音规则。例如,不同语言中硬辅音(如/b/、/p/)的发音虽差异显著,但都遵循相似的"闭合-保持-释放"运动轨迹,系统通过学习这种本质关系实现了泛化。

尽管取得突破,研究仍面临挑战。硬辅音处理是当前技术瓶颈,这类发音涉及多重物理约束:嘴唇需在毫秒级时间内完成精确闭合与释放,同时协调多个自由度运动,并应对软体接触、非线性阻尼等复杂因素。系统在极端场景(如极快语速、多人对话、歌唱颤音)下的表现仍有提升空间。胡宇航指出,这些局限恰恰为未来研究指明了方向——通过引入更丰富的训练数据与优化模型架构,有望逐步扩展系统的适用边界。

当被问及技术扩展性时,胡宇航确认团队正将研究从唇部动作延伸至整个面部表情系统。下一步计划是协调唇部、眼神、眉毛等面部要素,构建统一细腻的情感表达框架。这项探索不仅关乎技术突破,更触及人机交互的本质:当机器人能用整张脸传递情绪时,人类与机器的关系将迎来更深层次的变革。

HPE首席AI官解密:AI与自动化融合中技术、文化与边界的碰撞
弗莱德解释说,Mist和他在AI领域的工作起源于他试图说服一家大型零售商在其网络上部署移动体验应用程序。弗莱德形容这"就像从婴儿手中夺糖果",因为这些技术人员担心失去对系统的直接控制,需要建立对AI系统的信…

2026-02-09