发现者网
产业经济 科技业界 3C数码 文化传媒 移动智能 家电行业 AI大模型 汽车出行 热点资讯

AI模拟当CEO挑战500天:多数模型折戟,Claude Fable 5成最大赢家

2026-06-30来源:快讯编辑:瑞雪

普林斯顿大学近期推出一项名为CEO-Bench的全新基准测试,通过模拟创业公司运营场景,对人工智能模型担任企业首席执行官的能力展开系统性评估。测试结果显示,多数参与测试的AI模型在500天模拟周期内未能维持初始资金,仅有少数模型实现盈利增长。

该测试框架构建了高度复杂的商业环境,每家虚拟企业获得100万美元启动资金,需在500天运营周期内处理定价策略、预算分配、市场竞争分析等12类核心管理任务。AI智能体以周为单位制定决策,可调用34个专业工具并查询19个业务数据库,但需面对26个客户群体的隐性需求——价格敏感度、质量偏好等关键信息均需通过订阅数据、社交媒体反馈等间接渠道推断。

产品质量体系设计尤为精妙,由日常研发、定向开发、基础设施投入等8个维度共同决定。这种多变量耦合机制导致模型决策产生连锁反应,例如增加客服投入可能提升客户留存率,但会挤占产品开发预算。测试中,多数模型因未能平衡短期收益与长期投入,在模拟中期即出现资金链断裂。

在34个参与测试的模型中,Claude Fable 5以4715万美元期末现金领跑榜单,其三次运行结果均保持盈利状态。Claude Opus 4.8与GPT-5.5分别以2777万和2129万美元位列第二、第三,但后者平均运营天数仅333.7天,显示出较大的运营波动性。基于规则的传统基准模型取得1580万美元成绩,证明简单逻辑框架在特定场景下仍具竞争力。

表现欠佳的模型普遍存在决策短视问题。Grok 4.20平均仅维持28天运营,DeepSeek V4 Pro与Gemini 3 Flash也均在200天内破产。这些模型在定价策略上过度激进,或忽视客户流失预警信号,导致资金消耗速度远超收入增长。测试数据还显示,模型每周执行决策轮数与最终成绩无明显关联,Claude Fable 5仅需15.4轮即可高效决策,而某些模型30余轮操作仍难避免亏损。

研究人员指出,该测试揭示了AI在复杂商业决策中的四大短板:长期规划能力不足、噪声数据处理效率低下、外部变化适应迟缓、多目标协调失衡。尽管头部模型已展现出初步的商业洞察力,但要真正替代人类管理者,仍需突破动态环境建模、隐性知识推理等关键技术瓶颈。

贾跃亭宣布FF EAI机器人单月交付破百 全年目标提至2000台 海外布局加速
基于当前市场需求表现,企业第二次上调全年产销目标,全年EAI机器人出货目标调整至2000台,产品市场落地速度持续超出此前规划。在海外行业展会层面,FF打造的 “全形态 FF EAI机器人世界” 整体亮相Au…

2026-06-30

石头科技再获新专利!扫地机器人创新设计,轻松应对含液垃圾难题
这项新技术不仅让我们对扫地机器人有了新的期待,也为家庭清洁带来了更高效的解决方案。这不仅体现了石头科技对技术创新的重视,也展现了其在智能家居领域的持续探索与发展。 总的来看,石头科技的扫地机器人不仅是家庭清洁…

2026-06-30