旧金山一家名为Standard Intelligence的初创公司,近日宣布推出名为FDM-1(前向动力学模型)的计算机行为模型,宣称其为“首个完全通用的计算机行为模型”。该模型通过直接处理视频流,在CAD建模、网站安全测试以及自动驾驶等场景中展现出强大的泛化能力,引发行业关注。
与传统计算机使用代理依赖截屏分析和界面元素识别不同,FDM-1选择了一条截然不同的技术路径。它直接从大规模视频数据中学习人类操作计算机的行为模式,而非在已有视觉语言模型上叠加工具调用能力。Standard Intelligence认为,要实现真正通用的计算机操作智能体,关键在于利用互联网规模的视频语料库,而非局限于截屏上的分类和推理。
当前,主流的计算机使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner,均采用“看图说话”的思路,依赖视觉语言模型和工具调用能力。这些模型通过截屏、识别界面元素、模拟点击和键入来操作计算机,尽管在特定基准测试中取得了不错成绩,但本质上仍受限于截屏分辨率和操作频率。
FDM-1的训练方法则更接近OpenAI在2022年提出的VPT(视频预训练)方法,但进行了显著改进。VPT通过少量标注数据训练逆向动力学模型(IDM),再利用IDM为大规模游戏视频自动打标签,最终实现行为克隆训练。然而,VPT的应用局限于Minecraft游戏环境,且上下文窗口极短,无法处理需要长时间连贯操作的任务。
Standard Intelligence在FDM-1的开发中,同时突破了数据规模和上下文长度两个维度。他们首先利用4万小时的标注员录屏数据训练IDM,然后用IDM为1,100万小时的互联网视频语料库自动标注操作动作。IDM采用掩码扩散架构,能够同时参照所有帧来推断每个时间步的动作,提高了数据效率和标注准确性。
在上下文长度方面,FDM-1通过自研的视频编码器实现了显著突破。现有视觉语言模型处理屏幕录制视频的方式极度浪费token,导致上下文窗口极短。而FDM-1的视频编码器能够将近两小时的30 FPS视频压缩进200k token预算,比此前最优方案高效50倍。这使得FDM-1能够在更长的上下文窗口中处理视频流,适应需要长时间连贯操作的任务。
FDM-1本身是一个标准的自回归模型,接收此前的视频帧和动作序列,预测下一个动作token。输出空间由键盘按键和鼠标移动增量组成。为了处理鼠标位移的庞大状态空间,FDM-1将鼠标位移分解为X和Y分量,使用指数分箱将其映射到有限数量的箱中。同时,每个鼠标移动token还附带预测下一个点击位置,帮助生成更精确的轨迹。
在评估基础设施方面,Standard Intelligence建立了一套可运行8万台分叉虚拟机的系统,每小时能跑超过100万次rollout。分叉机制允许他们对操作系统状态做完整内存快照并复制到新的VM上,从而在同一个起始状态上并行跑数千次评估。这种评估方式大大提高了测试效率,降低了推理延迟。
初步评测结果显示,IDM标注数据在鼠标操作、目标点击、符号记忆和UI操控等方面的表现已经超过了人工标注的承包商数据。然而,在打字和语言理解任务上,IDM数据上的进步速度慢于承包商数据,这可能是由于IDM标注噪声造成的。未来,Standard Intelligence计划混合使用两种数据,以进一步提高模型性能。
在自动驾驶的微调实验中,FDM-1在不到1小时的驾驶数据上微调后,就能用方向键控制汽车在旧金山绕街区转弯,起始准确率为50%。这一结果明显高于仅有视频编码器而没有互联网视频预训练的基线模型,展示了FDM-1在连续控制任务上的潜力。
Standard Intelligence的研究团队背景年轻但研究嗅觉敏锐。核心作者包括来自UCLA的Neel Redkar、参与过机器学习对齐理论学者项目的Yudhister Kumar等。在FDM-1之前,该团队已经有过两个引起关注的项目:一个是建造30 PB存储集群用于存放视频数据,另一个是开源全双工音频基础模型hertz-dev。这两个项目分别对应了FDM-1所需要的两个关键能力:大规模数据基础设施和跨模态学习。
尽管FDM-1现在还远不是一个可用的产品,缺乏指令跟随能力和公开标准化基准测试结果,但它在连续控制任务上的独特优势以及提出的技术路径仍然值得关注。未来,FDM-1代表的路线和视觉语言模型代理路线最终可能会趋于融合,兼得两种路线的优点。
