发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

旧金山四人团队另辟蹊径:用千万小时视频训练出通用计算机操作新模型

2026-02-25来源:快讯编辑:瑞雪

旧金山一家名为Standard Intelligence的初创公司,近日宣布推出名为FDM-1(前向动力学模型)的计算机行为模型,宣称其为“首个完全通用的计算机行为模型”。该模型通过直接处理视频流,在CAD建模、网站安全测试以及自动驾驶等场景中展现出强大的泛化能力,引发行业关注。

与传统计算机使用代理依赖截屏分析和界面元素识别不同,FDM-1选择了一条截然不同的技术路径。它直接从大规模视频数据中学习人类操作计算机的行为模式,而非在已有视觉语言模型上叠加工具调用能力。Standard Intelligence认为,要实现真正通用的计算机操作智能体,关键在于利用互联网规模的视频语料库,而非局限于截屏上的分类和推理。

当前,主流的计算机使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner,均采用“看图说话”的思路,依赖视觉语言模型和工具调用能力。这些模型通过截屏、识别界面元素、模拟点击和键入来操作计算机,尽管在特定基准测试中取得了不错成绩,但本质上仍受限于截屏分辨率和操作频率。

FDM-1的训练方法则更接近OpenAI在2022年提出的VPT(视频预训练)方法,但进行了显著改进。VPT通过少量标注数据训练逆向动力学模型(IDM),再利用IDM为大规模游戏视频自动打标签,最终实现行为克隆训练。然而,VPT的应用局限于Minecraft游戏环境,且上下文窗口极短,无法处理需要长时间连贯操作的任务。

Standard Intelligence在FDM-1的开发中,同时突破了数据规模和上下文长度两个维度。他们首先利用4万小时的标注员录屏数据训练IDM,然后用IDM为1,100万小时的互联网视频语料库自动标注操作动作。IDM采用掩码扩散架构,能够同时参照所有帧来推断每个时间步的动作,提高了数据效率和标注准确性。

在上下文长度方面,FDM-1通过自研的视频编码器实现了显著突破。现有视觉语言模型处理屏幕录制视频的方式极度浪费token,导致上下文窗口极短。而FDM-1的视频编码器能够将近两小时的30 FPS视频压缩进200k token预算,比此前最优方案高效50倍。这使得FDM-1能够在更长的上下文窗口中处理视频流,适应需要长时间连贯操作的任务。

FDM-1本身是一个标准的自回归模型,接收此前的视频帧和动作序列,预测下一个动作token。输出空间由键盘按键和鼠标移动增量组成。为了处理鼠标位移的庞大状态空间,FDM-1将鼠标位移分解为X和Y分量,使用指数分箱将其映射到有限数量的箱中。同时,每个鼠标移动token还附带预测下一个点击位置,帮助生成更精确的轨迹。

在评估基础设施方面,Standard Intelligence建立了一套可运行8万台分叉虚拟机的系统,每小时能跑超过100万次rollout。分叉机制允许他们对操作系统状态做完整内存快照并复制到新的VM上,从而在同一个起始状态上并行跑数千次评估。这种评估方式大大提高了测试效率,降低了推理延迟。

初步评测结果显示,IDM标注数据在鼠标操作、目标点击、符号记忆和UI操控等方面的表现已经超过了人工标注的承包商数据。然而,在打字和语言理解任务上,IDM数据上的进步速度慢于承包商数据,这可能是由于IDM标注噪声造成的。未来,Standard Intelligence计划混合使用两种数据,以进一步提高模型性能。

在自动驾驶的微调实验中,FDM-1在不到1小时的驾驶数据上微调后,就能用方向键控制汽车在旧金山绕街区转弯,起始准确率为50%。这一结果明显高于仅有视频编码器而没有互联网视频预训练的基线模型,展示了FDM-1在连续控制任务上的潜力。

Standard Intelligence的研究团队背景年轻但研究嗅觉敏锐。核心作者包括来自UCLA的Neel Redkar、参与过机器学习对齐理论学者项目的Yudhister Kumar等。在FDM-1之前,该团队已经有过两个引起关注的项目:一个是建造30 PB存储集群用于存放视频数据,另一个是开源全双工音频基础模型hertz-dev。这两个项目分别对应了FDM-1所需要的两个关键能力:大规模数据基础设施和跨模态学习。

尽管FDM-1现在还远不是一个可用的产品,缺乏指令跟随能力和公开标准化基准测试结果,但它在连续控制任务上的独特优势以及提出的技术路径仍然值得关注。未来,FDM-1代表的路线和视觉语言模型代理路线最终可能会趋于融合,兼得两种路线的优点。

2026年春节北京商圈“热”力全开:传统现代交融,消费客流双丰收
从传统年俗到现代光影艺术,非物质文化遗产的手工艺品到智能互动体验,京城的商业中心以“全城一节”的姿态,为市民和游客提供了一场传统与现代交融的消费盛宴。海淀区的新春科技庙会设置了机器人互动展区,智慧年货集市与“…

2026-02-25

OpenAI奥尔特曼直言太空数据中心“荒谬”:近十年难大规模应用
来源:环球网 【环球网科技综合报道】2月24日消息,据techzine报道称,OpenAI首席执行官萨姆·奥尔特曼(Sam Altman)近日在接受采访时明确表示,在太空部署数据中心的设想“荒谬至极”,并断…

2026-02-25

德恩精工迈入“AI+元年”:5G赋能 机械手将获“视觉”与“智能”双升级
针对研发设计、智能办公、生产、物流、销售、采购等环节,公司将开发一系列“小快轻准”的智能体,实现各业务“AI+”,推动企业从数字工厂转向智能工厂。 从智改数转的扎实推进,到AI+战略的系统规划,德恩精工正通过…

2026-02-25

深圳南山诞生首个百亿具身智能独角兽,智平方凭实力领跑机器人赛道
从2023年创立以来,智平方就押注端到端大模型技术,专做“干实事”的生产力型机器人,不搞花拳绣腿的表演款。 本轮融资阵容豪华,汇聚互联网与AI巨头、头部央企、特斯拉产业生态链龙头、头部PE及券商系资本,百度…

2026-02-25

荣耀Magic V6携赤兔红配色登场 谢霆锋任体验官 材质防水耐刮亮点多
荣耀终端股份有限公司产品线总裁 @荣耀方飞 也发文介绍了MagicV6的「赤兔红」配色的后盖采用了超级纳米涂层绒马环保皮,并兼具防水、耐刮特性。 此外, @荣耀手机 还公布了一组Magic V6的真机外观细…

2026-02-25

新春新景:机器人融入年俗 科技赋能开启节日新体验与未来新篇章
现身街头巷尾写“福”送福、来到大唐不夜城上演激烈的“飞花令”、化身售货员为游客抓取商品、穿梭豫园灯会定时巡游……2026年新春佳节里,从“看得见的秀”到“用得着的服务”,机器人和机器狗们正加快“跑”进多地的年…

2026-02-25

从大宅到阳台:新一代防逆流电表如何解锁家庭光储全场景?
新一代防逆流电表,正以其快速识别响应能力、高通讯稳定性、以及更低的安装调试成本,重新定义了行业标准。 从功能上看,防逆流系统的核心需求可以概括为三点:实时监测双向电能流动、快速阻断逆流行为、与逆变器和能源管理…

2026-02-24