Nature顶刊新基准：全球顶尖AI模型在“人类终极考试”中表现欠佳-AI大模型-发现者网

AI技术发展日新月异，从高德纳对Claude破解难题的惊叹，到数学家陶哲轩宣称GPT-5.2 Pro解决数学难题达到博士水平，AI在各个领域不断突破。然而，在被称为“人类最后的考试”的新基准测试中，即便是最先进的AI模型也表现不佳，最高得分仅8%，这一结果引发了广泛关注。

随着AI模型能力的迅速提升，传统基准测试逐渐失去效力。大规模多任务语言理解（MMLU）等曾被视为高难度的评测，如今AI的准确率已超过90%，甚至接近“饱和”。研究人员指出，这些测试过于简单，难以真实反映AI的先进水平，更无法确保其安全性和有效性。为了应对这一挑战，全球近千名研究人员组成联盟，开发了名为“人类最后的考试”（Humanity’s Last Exam，HLE）的新基准。

HLE由AI安全中心CAIS和Scale AI团队共同开发，包含3000个极具挑战性的问题，最终筛选出2500道用于测试。这些问题覆盖数学、人文学科、自然科学、古代语言及高度专业化的子领域，旨在全面评估AI的能力。每道题都经过领先AI模型的测试，只有那些当前系统无法解答的问题才会被保留，确保测试恰好处于AI能力边界之外。

初步测试结果显示，即便是最先进的模型也难以应对HLE的挑战：GPT-4o仅得2.7%，Claude 3.5 Sonnet为4.1%，而OpenAI的旗舰模型o1也仅取得8%的成绩。这一结果凸显了HLE的高难度，也表明当前AI在复杂、专业化知识领域仍存在明显局限。

德州农工大学计算机科学与工程系副教授Tung Nguyen参与了HLE的题目撰写和完善工作，贡献了73道考题，尤其在数学和计算机科学领域撰写了大量题目。他指出，HLE的目的并非难倒人类，而是精确揭示AI目前无法完成的任务。尽管AI在传统基准测试中表现优异，但这些测试未必能衡量真正的“智能”。HLE的命名虽有玩笑成分，但其核心理念是设立一道人类对AI的终极考验——如果AI能通过，则意味着它达到了专业化人类专家的水平。

HLE的问题需要多年的专门研究才能解答，仅靠互联网数据的“猜测”无法奏效。例如，考试涵盖从核物理到古代史的广泛领域，没有人类能独自通过整个考试，但特定领域的专家可以轻松回答其专业内的问题。相比之下，AI在几乎所有类别上都表现不佳，凸显了其在深度专业知识方面的不足。

周鸿祎谈AI使用：别当搜索工具，要深度交流激发创新思维

周鸿祎认为，不要去找AI要结论，要把它当成一个伙伴去深度交流，激发自己更多的创新思维。要让AI扮演不同的专家，约束一个专业方向。可以把自己遇到的困惑和不成熟的想法交给AI，把它当一个顾问去倾诉。要运用第一性…

2026-03-08

华为无线专家：智能体时代来临，无线网络创新升级成关键支撑

如果说最近几年的世界移动通信大会（MWC）都在热议“以智兴网”（AI For Network），也就是用AI技术去优化网络本身的效率，那么2026年MWC的焦点则是“以网赋智”，即网络如何去服务和支持AI的发…

2026-03-08

GPT-5.4重磅登场：能力效率双提升，开启AI数字员工新时代

它更像是一个“模型能力大一统”成果：OpenAI首次在单一模型中，把推理（Reasoning）、编程（Coding）、计算机原生交互（Computer Use）、深度网页搜索以及百万级Token上下文…

2026-03-07

中国电信携手华为完成多芯光纤跨城智算互连现网验证性能达97%以上

IT之家 3 月 3 日消息，据中国电信研究院今日消息，中国电信研究院携手广东电信、华为，依托“中国电信云网融合技术中试验证平台”和现网共建共享的多芯光纤传输系统，在中国电信广州南方基地智算中心、广州沙溪智算…

2026-03-07

AI Edge：解锁九大场景新价值，驱动数字经济增长新引擎

在技术方向上，白皮书明确了AI Edge的五大核心领域：系统架构采用分布式节点、超级边缘节点、核心节点的分层架构，实现边缘自智与全域协同；AIfor Edge技术聚焦无线信道表征、空口优化、资源调度等，通…

2026-03-07

ETF更名倒计时：基金公司加速推进，助力行业迈向高质量发展新阶段

2026-03-07

雷军展望AI时代：工作模式或变，每周3天每天2小时成可能

2026-03-07

Narada CEO揭秘：深度对话千名客户，以精益策略开启融资新路径

2026-03-07

雷军力荐小米Tag新配件荣耀Magic V6影像登顶 vivo X300 Max海外亮相

2026-03-07