发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

类Sora模型到底懂不懂物理?字节完成系统性实验,图灵奖得主杨立昆赞转!

2024-11-07来源:发现者网编辑:芳华

Sora爆火以来,“视频生成模型到底懂不懂物理规律”受到热议,但业界一直未有研究证实。近日,字节跳动豆包大模型团队公布最新论文,研究历时8个月,围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,但暂时还无法真正理解物理规律,做到“举一反三”。

图灵奖得主、meta首席AI科学家杨立昆点赞并转发了该研究,表示“结论不令人意外,但很高兴终于有人做了这个尝试!”

自OpenAI发布Sora模型以来,很多视频生成模型都会强调其生成结果对物理规律的遵循。豆包大模型视觉团队相关小组,对视频生成模型究竟能否从视觉数据中“发现”并“理解”物理定律感到好奇,决定深入研究。

历时8个月,该团队完成了业界首个系统性的实验研究。团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流DiT架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有“世界模型”的潜力。

实验中设计的不同运动场景

豆包大模型团队的实验发现,即使遵循“Scaling Law”增大模型参数规模和数据量,模型依然无法抽象出一般物理规则,做到真正“理解”。

以最简单的匀速直线运动为例,当模型学习了不同速度下小球保持匀速直线运动的训练数据后,给定初始几帧,要求模型生成小球在训练集速度区间内匀速直线运动的视频,随着模型参数和训练数据量的增加,生成的视频逐渐更符合物理规律。

然而,当要求模型生成未曾见过的速度区间(即超出训练数据范围)的运动视频时,模型突然不再遵循物理规律,并且无论如何增加模型参数或训练数据,生成的结果都没有显著改进。这表明,视频生成模型无法真正理解物理规律,也无法将这些规律泛化应用到全新的场景中。

通过进一步的实验分析,研究团队得出结论,“生成新视频时,模型主要依赖对训练案例的记忆和匹配。视频生成模型就像一个只会‘抄作业’的学生,一旦遇到从未见过的场景,如不同大小、速度的物体相互作用,就会‘犯迷糊’,生成结果与物理规则不符。”

不过,研究中也有一个好消息:如果训练视频中所有概念和物体都是模型已熟悉的,此时加大训练视频的复杂度,比如组合增加物体间的物理交互,通过加大训练数据,模型对物理规律的遵循将越来越好。这一结果可为视频生成模型继续提升表现提供启发。

据了解,本研究两位核心一作都非常年轻,一位是95后,一位是00后,在豆包大模型团队专注视觉领域的基础研究工作。作者们一直对世界模型感兴趣,在8个月的探索中,他们阅读了大量物理学研究文献,也尝试从游戏中获得研发灵感,历经多次失败后,最终一步步确定研究思路和实验方法。

今年以来,字节跳动在大模型领域不断加大投入,底层研究、基础模型、AI应用均有亮眼产出。不久前,字节豆包大模型团队还发起了Top Seed人才计划,在全球范围持续招募大语言模型、视觉、语音、大模型基座等领域的顶尖研究人才,提供充分的创新探索空间。

研究论文链接:https://arxiv.org/pdf/2411.02385

研究成果网站:https://phyworld.github.io/#combo_gen

企业禁用无线网卡攻略:三种方法详解,第二种助企业高效管控风险
对于中大型企业或对数据安全要求高的单位,域智盾终端安全管理系统提供了更智能、更彻底、更可追溯的无线网卡管控方案。在Windows专业版或企业环境中,IT人员可以用系统自带的组策略(Group Policy…

2025-11-15

蓝牙耳机被他人连接别慌!三招轻松夺回“控制权”
当发现耳机被别人连接时,最直接的解决方法是重置连接。操作很简单:先打开你的手机蓝牙设置,找到已配对的耳机名称,选择“忽略此设备”或“取消配对”。最后,在手机蓝牙列表中找到你的耳机并重新点击连接即可。这个操作…

2025-11-15

Gartner发布2026十大技术趋势:AI主导变革,从“大而全”迈向“精而实”
近日,商业与技术洞察公司Gartner发布了2026年十大战略技术趋势:AI超级计算平台、多智能体系统、特定领域语言模型、AI安全平台、AI原生开发平台、机密计算、物理AI、前置式主动网络安全、数字溯源,以及…

2025-11-14

工业通信新选择:环网交换机如何以冗余设计保障现场数据稳定传输
每个交换机上有两个用于组环的端口(网口),交换机之间通过手拉手形式构成了环形的网络拓扑。我们设计的千兆工业交换机整体设计采用“凹陷”网口设计,外观上和普通交换机大有差别,将网线水晶头能够有力的支撑保护住。 …

2025-11-14

安科瑞ASCB3-80m智能微断:全参量监测+远程操控,筑牢低压配电安全防线
智能微型断路器配合智能网关使用,对用电线路的关键电气参数,如电压、电流、功率、温度、漏电、能耗等进行实时监测,具有远程操控、异常预警、事故跳闸告警、电能计量统计、故障定位等功能。ASCB3-80m 系列智能…

2025-11-14

技嘉B860M冰雕主板深度评测:千元价位与酷睿Ultra的完美搭档
XMP AI Boost的DDR5-8200 CL40挡位也能够顺利开启,再叠加上高带宽、低延迟功能的性能加成之后,内存性能继续得到提升,但写入性能基本上是到顶了,主要是受限于B860芯片组主板无法调整CP…

2025-11-14

杭州上城第三批50个“人工智能+”场景发布 涵盖多领域促发展
杭州市上城区近日举办了一场聚焦“人工智能+”机会场景的发布会,同时举行了场景供需对接活动。会上,50个具有高价值的创新应用场景集中亮相,覆盖社会治理、金融服务、民生服务、城市管理、智能建造、文化旅游、时尚消费等多个领域,展现了人工智能技术在城市发展中的深度融合与创新应用。

2025-11-14

中关村房山园科技对接会:昆虫机器人等“硬核”成果亮相,助力新质生产力
11月12日,中关村“火花”活动之北京理工大学专场对接会暨中关村房山园新质生产力发布厅科技成果转化对接活动在中关村新兴产业前沿技术研究院举行,极限搜救昆虫机器人、通信感知超宽带收发芯片等一批来自北京理工大学、…

2025-11-14

谷歌AI新动作与苹果不谋而合
在人工智能技术飞速发展的当下,苹果公司在AI领域的表现始终是行业关注的焦点。近期有观点认为,这家科技巨头在生成式AI浪潮中显得步伐迟缓,但深入分析后会发现,苹果正在隐私保护与技术创新之间走出一条独特的道路。

2025-11-13

昕锐CL系列激光测距模块:定制化驱动低空经济场景变革新引擎
结语:定制化,是技术普惠的终极路径当测距模块从“标准化商品”进化为“场景化服务”,昕锐CL系列不仅解决了无人机与吊舱的“精准降本”难题,更重新定义了技术与需求的关系:技术突破的价值,不在于参数的堆砌,而在于…

2025-11-13